KR102621881B1 - Server and method for authenticating speaker during call to counselor - Google Patents

Server and method for authenticating speaker during call to counselor Download PDF

Info

Publication number
KR102621881B1
KR102621881B1 KR1020180105801A KR20180105801A KR102621881B1 KR 102621881 B1 KR102621881 B1 KR 102621881B1 KR 1020180105801 A KR1020180105801 A KR 1020180105801A KR 20180105801 A KR20180105801 A KR 20180105801A KR 102621881 B1 KR102621881 B1 KR 102621881B1
Authority
KR
South Korea
Prior art keywords
speaker
real
time
authentication
voice
Prior art date
Application number
KR1020180105801A
Other languages
Korean (ko)
Other versions
KR20200027688A (en
Inventor
서동철
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020180105801A priority Critical patent/KR102621881B1/en
Publication of KR20200027688A publication Critical patent/KR20200027688A/en
Application granted granted Critical
Publication of KR102621881B1 publication Critical patent/KR102621881B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

상담사와 상담하는 화자를 인증하는 화자 인증 서버는 화자의 실시간 상담 음성 정보로부터 화자의 실시간 실음성을 획득하는 실음성 획득부, 화자의 실시간 실음성을 스코어 산출 서버로 전송하는 실음성 전송부, 기설정된 인증 주기마다의 화자의 실시간 실음성 및 화자의 기등록된 음성 지문 간의 비교에 기초한 화자의 실시간 인증 결과에 대한 실시간 인증 스코어를 스코어 산출 서버로부터 수신하는 인증 결과 수신부 및 수신된 인증 스코어에 기초하여 화자에 대한 사칭 위험도를 판단하는 위험도 판단부를 포함하고, 인증 주기는 실시간 인증 스코어에 기초하여 가변될 수 있다. The speaker authentication server that authenticates the speaker consulting with the counselor includes a real-time speech acquisition unit that acquires the speaker's real-time real-time speech from the speaker's real-time consultation voice information, a real-time speech transmission unit that transmits the real-time real-time speech of the speaker to the score calculation server, and An authentication result receiving unit that receives a real-time authentication score for the speaker's real-time authentication result based on comparison between the speaker's real-time real-time voice at each set authentication cycle and the speaker's pre-registered voice fingerprint from the score calculation server, and based on the received authentication score It includes a risk determination unit that determines the risk of impersonation of the speaker, and the authentication cycle can be varied based on the real-time authentication score.

Description

상담사와 상담하는 화자를 인증하는 서버 및 방법{SERVER AND METHOD FOR AUTHENTICATING SPEAKER DURING CALL TO COUNSELOR}Server and method for authenticating a speaker consulting with a counselor {SERVER AND METHOD FOR AUTHENTICATING SPEAKER DURING CALL TO COUNSELOR}

본 발명은 상담사와 상담하는 화자를 인증하는 서버 및 방법에 관한 것이다.The present invention relates to a server and method for authenticating a speaker consulting with a counselor.

종래의 전화 상담 시스템에 따르면, 상담원은 고객으로부터 고객에 대한 정보(예컨대, 고객의 성명, 생년월일, 주소 정보, 납부 방법, 신용카드 번호 등)를 요청하여 고객을 식별 및 인증한다. According to a conventional telephone consultation system, a counselor requests information about the customer (eg, the customer's name, date of birth, address information, payment method, credit card number, etc.) to identify and authenticate the customer.

이러한 전화 상담 시스템은 고객이 제공하는 정보에 의해서만 고객을 식별 및 인증하기 때문에 고객에 대한 정보를 불법적으로 획득한 사칭자가 해당 고객에 대한 정보를 도용하여 서비스를 이용하는 문제점이 있었다. Since these telephone consultation systems identify and authenticate customers only based on the information provided by the customer, there was a problem in which impersonators who illegally obtained information about the customer stole the information about the customer and used the service.

상술한 문제점을 해결하기 위해 최근 고객의 음성을 이용하여 신분을 확인하는 화자 인증 시스템이 도입되었다. To solve the above-mentioned problems, a speaker authentication system that verifies identity using the customer's voice was recently introduced.

이러한 고객의 음성을 이용하여 신분을 확인하는 화자 인증 시스템은 고객이 기설정된 특정 문장을 발화하면 해당 특정 문장에 대한 고객의 음성을 등록하고, 이후, 등록된 고객의 음성과 입력된 고객의 음성과 비교함으로써 고객을 인증한다. The speaker authentication system, which verifies identity using the customer's voice, registers the customer's voice for that specific sentence when the customer utters a specific preset sentence, and then combines the registered customer's voice with the input customer's voice. Authenticate customers by comparing.

그러나, 이러한 화자 인증 시스템은 상담 시작 시점에만 입력된 고객의 음성을 통해 고객을 인증하기 때문에 실시간 고객 인증이 어렵고, 고객 사칭을 원천적으로 차단하기 어려울 뿐만 아니라, 생활 소음 및 고객의 음성 변화가 있는 경우에는 고객의 음성을 통해 고객의 인증이 어렵다는 문제점이 있다. However, since this speaker authentication system authenticates the customer through the customer's voice entered only at the start of the consultation, it is difficult to authenticate the customer in real time, and it is difficult to fundamentally block customer impersonation, as well as when there are noises from everyday life and changes in the customer's voice. There is a problem that it is difficult to authenticate the customer through the customer's voice.

한국공개특허공보 제2017-0105034호 (2017.09.18. 공개)Korean Patent Publication No. 2017-0105034 (published on September 18, 2017)

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 기설정된 인증 주기마다 상담사와 상담하는 화자의 실시간 실음성 및 화자의 기등록된 음성 지문을 비교하여 화자의 실시간 인증 결과에 대한 실시간 인증 스코어를 산출하고자 한다. The present invention is intended to solve the problems of the prior art described above, and provides a real-time authentication score for the real-time authentication result of the speaker by comparing the real-time actual voice of the speaker consulting with the counselor at each preset authentication cycle and the speaker's pre-registered voice fingerprint. We want to calculate .

또한, 본 발명은 인증 스코어에 기초하여 화자에 대한 사칭 위험도를 판단하고, 실시간 인증 스코어에 기초하여 화자의 실시간 실음성 및 화자의 기등록된 음성 지문을 비교하는 인증 주기를 변경하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다. In addition, the present invention seeks to change the authentication cycle that determines the risk of impersonation of a speaker based on the authentication score and compares the speaker's real-time real-time voice and the speaker's pre-registered voice fingerprint based on the real-time authentication score. However, the technical challenges that this embodiment aims to achieve are not limited to the technical challenges described above, and other technical challenges may exist.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 상담사와 상담하는 화자를 인증하는 화자 인증 서버는 상기 화자의 실시간 상담 음성 정보로부터 상기 화자의 실시간 실음성을 획득하는 실음성 획득부; 상기 화자의 실시간 실음성을 스코어 산출 서버로 전송하는 실음성 전송부; 기설정된 인증 주기마다의 상기 화자의 실시간 실음성 및 상기 화자의 기등록된 음성 지문 간의 비교에 기초한 상기 화자의 실시간 인증 결과에 대한 실시간 인증 스코어를 상기 스코어 산출 서버로부터 수신하는 인증 결과 수신부; 및 상기 수신된 실시간 인증 스코어에 기초하여 상기 화자에 대한 사칭 위험도를 판단하는 위험도 판단부를 포함하고, 상기 인증 주기는 상기 실시간 인증 스코어에 기초하여 가변될 수 있다. As a technical means for achieving the above-described technical problem, the speaker authentication server for authenticating a speaker consulting with a counselor according to the first aspect of the present invention includes a device for obtaining real-time real-time speech quality of the speaker from real-time consultation voice information of the speaker. Voice acquisition unit; a real-time speech transmission unit that transmits the real-time real-time speech of the speaker to a score calculation server; an authentication result receiving unit that receives, from the score calculation server, a real-time authentication score for the real-time authentication result of the speaker based on comparison between the real-time real-time voice of the speaker at each preset authentication cycle and the speaker's pre-registered voice fingerprint; and a risk determination unit that determines a risk of impersonation for the speaker based on the received real-time authentication score, and the authentication cycle can be varied based on the real-time authentication score.

본 발명의 제 2 측면에 따른 상담사와 상담하는 화자를 인증하는 스코어 산출 서버는 화자 인증 서버로부터 상기 화자의 실시간 실음성을 수신하는 실음성 수신부; 상기 화자의 실시간 실음성 및 상기 화자의 기등록된 음성 지문을 비교하여 기설정된 인증 주기마다 상기 화자의 실시간 인증을 수행하는 실시간 인증 수행부; 상기 화자의 실시간 인증의 결과에 대한 실시간 인증 스코어를 산출하는 인증 스코어 산출부; 및 상기 실시간 인증 스코어를 상기 화자 인증 서버로 전송하는 인증 스코어 전송부를 포함하고, 상기 화자의 실시간 실음성은 상기 화자의 실시간 상담 음성 정보로부터 획득되고, 상기 인증 주기는 상기 실시간 인증 스코어에 기초하여 가변될 수 있다. A score calculation server that authenticates a speaker consulting with a counselor according to a second aspect of the present invention includes a real-time speech reception unit that receives real-time real-time speech of the speaker from a speaker authentication server; a real-time authentication unit that performs real-time authentication of the speaker at preset authentication cycles by comparing the speaker's real-time real-time voice quality with the speaker's pre-registered voice fingerprint; an authentication score calculation unit that calculates a real-time authentication score for the result of real-time authentication of the speaker; and an authentication score transmission unit that transmits the real-time authentication score to the speaker authentication server, wherein the real-time real-time voice of the speaker is obtained from the real-time counseling voice information of the speaker, and the authentication period is variable based on the real-time authentication score. It can be.

본 발명의 제 3 측면에 따른 화자 인증 서버에서 상담사와 상담하는 화자를 인증하는 방법은 상기 화자의 실시간 상담 음성 정보로부터 상기 화자의 실시간 실음성을 획득하는 단계; 상기 화자의 실시간 실음성을 스코어 산출 서버로 전송하는 단계; 기설정된 인증 주기마다의 상기 화자의 실시간 실음성 및 상기 화자의 기등록된 음성 지문 간의 비교에 기초한 상기 화자의 실시간 인증 결과에 대한 실시간 인증 스코어를 상기 스코어 산출 서버로부터 수신하는 단계; 및 상기 수신된 실시간 인증 스코어에 기초하여 상기 화자에 대한 사칭 위험도를 판단하는 단계를 포함하고, 상기 인증 주기는 상기 실시간 인증 스코어에 기초하여 가변될 수 있다. A method of authenticating a speaker consulting with a counselor in a speaker authentication server according to a third aspect of the present invention includes the steps of obtaining real-time real-time speech quality of the speaker from real-time counseling voice information of the speaker; Transmitting the real-time real-time speech of the speaker to a score calculation server; Receiving a real-time authentication score for the real-time authentication result of the speaker from the score calculation server based on comparison between the real-time real-time voice of the speaker at each preset authentication cycle and the speaker's pre-registered voice fingerprint; and determining a risk of impersonation for the speaker based on the received real-time authentication score, wherein the authentication cycle can be varied based on the real-time authentication score.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.The above-described means for solving the problem are merely illustrative and should not be construed as limiting the present invention. In addition to the exemplary embodiments described above, there may be additional embodiments described in the drawings and detailed description of the invention.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 본 발명은 기설정된 인증 주기마다 상담사와 상담하는 화자의 실시간 실음성 및 화자의 기등록된 음성 지문을 비교하여 화자의 실시간 인증 결과에 대한 실시간 인증 스코어를 산출할 수 있다. According to one of the above-described means for solving the problem of the present invention, the present invention compares the real-time real-time voice of the speaker consulting with the counselor at each preset authentication cycle with the speaker's pre-registered voice fingerprint to provide real-time information on the real-time authentication result of the speaker. The certification score can be calculated.

또한, 본 발명은 인증 스코어에 기초하여 화자에 대한 사칭 위험도를 판단하고, 실시간 인증 스코어에 기초하여 화자의 실시간 실음성 및 화자의 기등록된 음성 지문을 비교하는 인증 주기를 변경할 수 있다. In addition, the present invention can determine the risk of impersonation for a speaker based on the authentication score, and change the authentication cycle to compare the speaker's real-time real-time voice and the speaker's pre-registered voice fingerprint based on the real-time authentication score.

이를 통해, 본 발명은 상담 시작 시점부터 상담 종료 시점까지 실시간 화자 인증이 가능하고, 이로 인해 상담 전체의 과정에서 화자의 본인확인을 보장하고 사칭을 원천적으로 차단할 수 있다. 즉, 본 발명은 상담 시작 시 화자의 본인확인이 성공하여도 상담 중 화자변경으로 발생할 수 있는 사칭을 원천적으로 차단할 수 있다. Through this, the present invention enables real-time speaker authentication from the start of the consultation to the end of the consultation, thereby ensuring the speaker's identity during the entire consultation process and fundamentally blocking impersonation. In other words, the present invention can fundamentally block impersonation that may occur due to a change in speaker during the consultation even if the speaker's identity is successfully verified at the start of the consultation.

또한, 본 발명은 상담사와 화자 간의 실시간 대화(즉, 실시간 상담 음성 정보)만으로 화자 인증이 수행되기 때문에 사칭자의 임의의 화자 사칭을 방지할 수 있다. In addition, the present invention can prevent impersonators from impersonating any speaker because speaker authentication is performed only through real-time conversation between the counselor and the speaker (i.e., real-time counseling voice information).

또한, 본 발명은 화자의 본인 확인을 위해 소요되는 상담사의 응대 시간을 줄일 수 있다. 또한, 본 발명은 기존에 상담사와의 상담 시에 화자의 개인정보를 제공함으로써 발생했던 거부감을 줄이고, 상담 업무의 효율성을 향상시킬 수 있다.Additionally, the present invention can reduce the counselor's response time required to verify the speaker's identity. In addition, the present invention can reduce the resistance that previously occurred by providing the speaker's personal information during consultation with a counselor and improve the efficiency of counseling work.

또한, 본 발명은 화자의 중요한 개인 정보가 유출되는 것을 방지할 수 있으며, 상담 통화 중 본인 여부 확인에 소요되는 시간을 단축시켜 고객 만족도를 향상시킬 수 있다.In addition, the present invention can prevent the speaker's important personal information from being leaked, and can improve customer satisfaction by shortening the time required to verify identity during a consultation call.

도 1은 본 발명의 일 실시예에 따른, 화자 인증 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른, 도 1에 도시된 화자 인증 서버의 블록도이다.
도 3a 내지 3d는 본 발명의 일 실시예에 따른, 화자를 인증하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른, 화자 인증 서버에서 화자를 인증하는 방법을 나타낸 흐름도이다.
도 5는 본 발명의 일 실시예에 따른, 도 1에 도시된 스코어 산출 서버의 블록도이다.
도 6은 본 발명의 일 실시예에 따른, 스코어 산출 서버에서 화자를 인증하는 방법을 나타낸 흐름도이다.
1 is a configuration diagram of a speaker authentication system according to an embodiment of the present invention.
Figure 2 is a block diagram of the speaker authentication server shown in Figure 1, according to an embodiment of the present invention.
3A to 3D are diagrams for explaining a method of authenticating a speaker according to an embodiment of the present invention.
Figure 4 is a flowchart showing a method of authenticating a speaker in a speaker authentication server, according to an embodiment of the present invention.
Figure 5 is a block diagram of the score calculation server shown in Figure 1, according to an embodiment of the present invention.
Figure 6 is a flowchart showing a method of authenticating a speaker in a score calculation server according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Below, with reference to the attached drawings, embodiments of the present invention will be described in detail so that those skilled in the art can easily implement the present invention. However, the present invention may be implemented in many different forms and is not limited to the embodiments described herein. In order to clearly explain the present invention in the drawings, parts that are not related to the description are omitted, and similar parts are given similar reference numerals throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. Throughout the specification, when a part is said to be "connected" to another part, this includes not only the case where it is "directly connected," but also the case where it is "electrically connected" with another element in between. . Additionally, when a part "includes" a certain component, this means that it may further include other components rather than excluding other components, unless specifically stated to the contrary.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. In this specification, 'part' includes a unit realized by hardware, a unit realized by software, and a unit realized using both. Additionally, one unit may be realized using two or more pieces of hardware, and two or more units may be realized using one piece of hardware.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다. In this specification, some of the operations or functions described as being performed by a terminal or device may instead be performed on a server connected to the terminal or device. Likewise, some of the operations or functions described as being performed by the server may also be performed on a terminal or device connected to the server.

이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다. Hereinafter, specific details for implementing the present invention will be described with reference to the attached configuration diagram or processing flow diagram.

도 1은 본 발명의 일 실시예에 따른, 화자 인증 시스템의 구성도이다. 1 is a configuration diagram of a speaker authentication system according to an embodiment of the present invention.

도 1을 참조하면, 화자 인증 시스템은 화자 인증 서버(100) 및 스코어 산출 서버(110)를 포함할 수 있다. 다만, 이러한 도 1의 화자 인증 시스템은 본 발명의 일 실시예에 불과하므로 도 1을 통해 본 발명이 한정 해석되는 것은 아니며, 본 발명의 다양한 실시예들에 따라 도 1과 다르게 구성될 수도 있다. Referring to FIG. 1, the speaker authentication system may include a speaker authentication server 100 and a score calculation server 110. However, since the speaker authentication system of FIG. 1 is only one embodiment of the present invention, the present invention is not limited to FIG. 1, and may be configured differently from FIG. 1 according to various embodiments of the present invention.

일반적으로, 도 1의 화자 인증 시스템의 각 구성요소들은 네트워크(미도시)를 통해 연결된다. 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다. In general, each component of the speaker authentication system of FIG. 1 is connected through a network (not shown). Network refers to a connection structure that allows information exchange between nodes such as terminals and servers, including Local Area Network (LAN), Wide Area Network (WAN), and World Wide Area Network (WWW). Wide Web), wired and wireless data communication networks, telephone networks, wired and wireless television communication networks, etc. Examples of wireless data communication networks include 3G, 4G, 5G, 3GPP (3rd Generation Partnership Project), LTE (Long Term Evolution), WIMAX (World Interoperability for Microwave Access), Wi-Fi, Bluetooth communication, infrared communication, and ultrasound. This includes, but is not limited to, communication, Visible Light Communication (VLC), LiFi, etc.

화자 인증 서버(100)는 상담사와 상담하는 화자의 실시간 상담 음성 정보로부터 화자의 실시간 실음성을 획득하고, 획득된 화자의 실시간 실음성을 스코어 산출 서버(110)에게 전송할 수 있다. 여기서, 화자의 실시간 실음성은 화자의 실시간 상담 음성 정보에서 상담사의 실시간 실음성, 묵음 기간 및 생활 소음이 제거된 음성일 수 있다. 또한, 화자의 실시간 실음성은 화자의 실시간 상담 음성 정보에서 화자의 단순 대답 실음성이 더 제거된 음성일 수 있다. The speaker authentication server 100 may acquire the real-time real-time speech quality of the speaker from the real-time counseling voice information of the speaker consulting with the counselor, and transmit the acquired real-time real-time speech quality of the speaker to the score calculation server 110. Here, the speaker's real-time real-time speech quality may be a voice in which the counselor's real-time real-time speech quality, silence period, and household noise are removed from the speaker's real-time counseling voice information. In addition, the speaker's real-time real-time speech loss may be a voice in which the speaker's simple answer real-time speech quality is further removed from the speaker's real-time consultation voice information.

스코어 산출 서버(110)는 화자 인증 서버(100)로부터 수신된 화자의 실시간 실음성 및 화자의 기등록된 음성 지문을 비교하여 기설정된 인증 주기마다 화자의 실시간 인증을 수행할 수 있다. The score calculation server 110 may perform real-time authentication of the speaker at each preset authentication cycle by comparing the real-time real-time voice of the speaker received from the speaker authentication server 100 with the speaker's pre-registered voice fingerprint.

스코어 산출 서버(110)는 화자의 실시간 인증의 결과에 대한 실시간 인증 스코어를 산출하고, 산출된 실시간 인증 스코어를 화자 인증 서버(100)에게 전송할 수 있다. The score calculation server 110 may calculate a real-time authentication score for the result of the speaker's real-time authentication and transmit the calculated real-time authentication score to the speaker authentication server 100.

화자 인증 서버(100)는 스코어 산출 서버(110)로부터 수신된 실시간 인증 스코어에 기초하여 화자에 대한 사칭 위험도를 판단할 수 있다. The speaker authentication server 100 may determine the risk of impersonation for the speaker based on the real-time authentication score received from the score calculation server 110.

이하에서는 도 1의 화자 인증 시스템의 각 구성요소의 동작에 대해 보다 구체적으로 설명한다. Hereinafter, the operation of each component of the speaker authentication system of FIG. 1 will be described in more detail.

도 2는 본 발명의 일 실시예에 따른, 도 1에 도시된 화자 인증 서버(100)의 블록도이다. FIG. 2 is a block diagram of the speaker authentication server 100 shown in FIG. 1 according to an embodiment of the present invention.

도 2를 참조하면, 화자 인증 서버(100)는 음성 지문 조회부(200), 음성 지문 등록부(210), 실음성 획득부(220), 저장부(230), 실음성 전송부(240), 인증 결과 수신부(250) 및 위험도 판단부(260)를 포함할 수 있다. 다만, 도 2에 도시된 화자 인증 서버(100)는 본 발명의 하나의 구현 예에 불과하며, 도 2에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다. Referring to FIG. 2, the speaker authentication server 100 includes a voice fingerprint inquiry unit 200, a voice fingerprint registration unit 210, a real voice acquisition unit 220, a storage unit 230, a real voice transmission unit 240, It may include an authentication result receiving unit 250 and a risk determination unit 260. However, the speaker authentication server 100 shown in FIG. 2 is only one implementation example of the present invention, and various modifications are possible based on the components shown in FIG. 2.

음성 지문 조회부(200)는 화자의 정보(예컨대, 화자의 식별 정보로서, 화자의 아이디 등)에 기초하여 화자의 음성 지문을 스코어 산출 서버(110)를 통해 조회할 수 있다. 여기서, 스코어 산출 서버(110)는 화자의 정보에 기초하여 음성 지문 스토리지(미도시)에 화자의 음성 지문이 등록되어 있는지 여부를 확인할 수 있다. The voice fingerprint search unit 200 may search the speaker's voice fingerprint through the score calculation server 110 based on the speaker's information (e.g., speaker identification information, such as the speaker's ID). Here, the score calculation server 110 can check whether the speaker's voice fingerprint is registered in the voice fingerprint storage (not shown) based on the speaker's information.

음성 지문 등록부(210)는 상담사와 상담하는 화자의 음성 지문이 등록되어 있지 않은 경우, 음성 스토리지(미도시)에 기저장된 화자의 상담 음성 정보로부터 화자의 저장 실음성을 획득할 수 있다. 예를 들면, 음성 지문 등록부(210)는 음성 스토리지(미도시)로부터 기저장된 화자의 상담 음성 정보를 추출하고, 추출된 화자의 상담 음성 정보에서 상담사의 저장 실음성, 묵음 기간, 생활 소음 및 화자의 단순 대답 실음성을 제거함으로써 화자의 저장 실음성을 획득할 수 있다. If the voice fingerprint of the speaker consulting with the counselor is not registered, the voice fingerprint registration unit 210 may obtain the stored actual voice quality of the speaker from the speaker's counseling voice information pre-stored in voice storage (not shown). For example, the voice fingerprint register 210 extracts the counselor's previously stored counseling voice information from the voice storage (not shown), and from the extracted speaker's counseling voice information, the counselor's stored real voice, silence period, household noise, and speaker It is possible to obtain the speaker's stored real speech by removing the simple answer real sound.

음성 지문 등록부(210)는 획득된 화자의 저장 실음성이 화자와 상담사와의 대화 분석을 통해 정상적인 상담으로 확인된 음성인 동시에 하나의 화자의 음성으로 확인되는 음성인지를 판단할 수 있다. The voice fingerprint register 210 can determine whether the acquired stored real voice of the speaker is a voice confirmed as a normal consultation through analysis of a conversation between the speaker and a counselor and at the same time is a voice confirmed as the voice of a single speaker.

저장부(230)는 획득된 화자의 저장 실음성과 화자의 정보를 매핑하여 학습 스토리지(미도시)에 저장할 수 있다. The storage unit 230 may map the acquired real voice of the speaker and the speaker information and store them in a learning storage (not shown).

음성 지문 등록부(210)는 획득된 화자의 저장 실음성 및 화자의 정보(예컨대, 화자의 식별 정보로서, 화자의 아이디 등)를 포함하는 음성 지문 등록 요청을 스코어 산출 서버(110)에게 전송할 수 있다. The voice fingerprint registration unit 210 may transmit a voice fingerprint registration request including the acquired stored real voice of the speaker and speaker information (e.g., speaker identification information, speaker ID, etc.) to the score calculation server 110. .

다른 실시예로, 음성 지문 등록부(210)는 상담사와 상담하는 화자의 음성 지문이 등록되어 있지 않고, 음성 스토리지(미도시)에도 화자의 상담 음성 정보가 저장되어 있지 않은 경우, 화자의 실시간 음성 정보로부터 획득된 화자의 실시간 실음성 및 화자의 정보를 포함하는 음성 지문 등록 요청을 스코어 산출 서버(110)에게 전송할 수 있다. In another embodiment, the voice fingerprint registration unit 210 provides real-time voice information of the speaker when the voice fingerprint of the speaker consulting with the counselor is not registered and the speaker's counseling voice information is not stored in voice storage (not shown). A voice fingerprint registration request including the speaker's real-time real-time speech obtained from and the speaker's information may be transmitted to the score calculation server 110.

이 때, 음성 지문 등록 요청을 수신한 스코어 산출 서버(110)는 음성 지문 등록 요청에 포함된 화자의 저장 실음성 또는 실시간 실음성을 학습하고, 화자의 정보 및 학습된 화자의 저장 실음성 또는 실시간 실음성에 기초하여 화자의 음성 지문을 등록할 수 있다. 예를 들면, 스코어 산출 서버(110)는 화자의 저장 실음성 또는 실시간 실음성을 학습하여 화자의 음성특징벡터를 생성하고, 생성된 화자의 음성특징벡터를 화자의 음성 지문으로 등록할 수 있다. At this time, the score calculation server 110, which has received the voice fingerprint registration request, learns the stored real voice or real-time real-time voice of the speaker included in the voice fingerprint registration request, and learns the speaker's information and the learned speaker's stored real voice or real-time voice. The speaker's voice fingerprint can be registered based on actual speech. For example, the score calculation server 110 may learn the speaker's stored real voice or real-time real voice to generate the speaker's voice feature vector, and register the generated speaker's voice feature vector as the speaker's voice fingerprint.

실음성 획득부(220)는 상담 시, 화자의 실시간 상담 음성 정보로부터 화자의 실시간 실음성을 획득할 수 있다. 예를 들어, 실음성 획득부(220)는 화자의 실시간 상담 음성 정보에서 상담사의 실시간 실음성, 묵음 구간 및 생활 소음(예컨대, 음악, 자동차 엔진 소음, 백색 소음 등)을 제거함으로써 화자의 실시간 실음성을 획득할 수 있다. 또한, 실음성 획득부(220)는 화자의 실시간 상담 음성 정보에서 화자의 단순 대답 실음성(예컨대, '네, 아니요' 등)을 더 제거할 수 있다. During counseling, the real-time speech acquisition unit 220 can acquire the real-time real-time speech quality of the speaker from the real-time consultation voice information of the speaker. For example, the real-time speech acquisition unit 220 removes the real-time real-time speech of the counselor, silent sections, and everyday noise (e.g., music, car engine noise, white noise, etc.) from the speaker's real-time consultation voice information, thereby removing the real-time real-time speech of the speaker. Voice can be obtained. Additionally, the real voice acquisition unit 220 may further remove the speaker's simple answer real voice (eg, 'yes, no', etc.) from the speaker's real-time consultation voice information.

저장부(230)는 화자의 정보와 함께 화자의 실시간 실음성을 슬라이딩 윈도우 방식으로 학습 스토리지(미도시)에 저장할 수 있다. 여기서, 슬라이딩 윈도우 방식은 윈도우 사이즈(메모리 버퍼의 일정 영역)에 포함되는 데이터를 전송하고, 그 데이터의 수신이 확인되면, 윈도우 스텝을 옆으로 옮김(slide)으로써, 순차적으로 데이터를 전송하는 방식을 의미한다.The storage unit 230 may store the real-time real-time speech quality of the speaker along with the speaker information in a learning storage (not shown) using a sliding window method. Here, the sliding window method transmits data contained in the window size (a certain area of the memory buffer), and when reception of the data is confirmed, data is sequentially transmitted by moving the window step to the side (sliding). it means.

이때, 화자의 실시간 실음성은 화자의 상담의 시작 시점부터 종료 시점까지 학습 스토리지(미도시)에 저장될 수 있다. 예를 들면, 기설정된 윈도우 스텝(Window Step)(예컨대, n초 이내)만큼 쉬프트한 음성에서 화자 인증을 위한 최소의 실시간 실음성이 확보되면, 슬라이딩 윈도우 방식으로 학습 스토리지(미도시)에 저장될 수 있다. At this time, the speaker's real-time real-time speech quality may be stored in learning storage (not shown) from the start to the end of the speaker's consultation. For example, if the minimum real-time real-time voice quality for speaker authentication is secured in a voice shifted by a preset window step (e.g., within n seconds), it can be stored in the learning storage (not shown) using a sliding window method. You can.

실음성 전송부(240)는 획득된 화자의 실시간 실음성을 스코어 산출 서버(110)에게 전송할 수 있다. 예를 들면, 도3a를 참조하면, 실음성 전송부(240)는 상담 중에 실시간으로 획득된 화자의 실시간 실음성(30)을 실시간으로 스코어 산출 서버(110)에게 전송할 수 있다. 여기서, 스코어 산출 서버(110)는 예를 들면, 화자에 대한 인증이 1회 성공하기 전까지 기설정된 인증 주기(예컨대, 1초 주기)마다 화자의 실시간 실음성(30) 및 화자의 기등록된 음성 지문을 비교함으로써 화자를 인증할 수 있다. The real speech transmission unit 240 may transmit the acquired real-time real speech of the speaker to the score calculation server 110. For example, referring to Figure 3A, the real speech transmission unit 240 may transmit the speaker's real-time real speech 30 acquired in real time during the consultation to the score calculation server 110 in real time. Here, the score calculation server 110, for example, calculates the real-time real-time voice of the speaker (30) and the speaker's pre-registered voice at each preset authentication cycle (e.g., 1 second cycle) until authentication of the speaker succeeds once. The speaker can be authenticated by comparing fingerprints.

인증 결과 수신부(250)는 기설정된 인증 주기마다의 화자의 실시간 실음성 및 화자의 기등록된 음성 지문 간의 비교에 기초한 화자의 실시간 인증 결과에 대한 실시간 인증 스코어를 스코어 산출 서버(110)로부터 수신할 수 있다. The authentication result receiving unit 250 receives from the score calculation server 110 a real-time authentication score for the real-time authentication result of the speaker based on comparison between the speaker's real-time real-time voice at each preset authentication cycle and the speaker's pre-registered voice fingerprint. You can.

여기서, 스코어 산출 서버(110)는 예를 들면, 화자에 대한 인증이 1회 성공한 이후에 화자의 실시간 실음성 및 화자의 기등록된 음성 지문을 비교를 통해 산출된 화자의 실시간 인증 결과에 대한 실시간 인증 스코어에 기초하여 인증 주기를 가변할 수 있다. Here, the score calculation server 110 provides real-time information on the speaker's real-time authentication result calculated by comparing the speaker's real-time real-time voice and the speaker's pre-registered voice fingerprint, for example, after successful authentication of the speaker once. The authentication cycle can be varied based on the authentication score.

예를 들면, 도 3b를 참조하면, 실시간 인증 스코어가 기설정된 제 1 스코어(301)보다 큰 경우, 인증 주기는 제 1 인증 주기(303)(예컨대, 8초 주기)로 가변될 수 있다. 또한, 실시간 인증 스코어가 기설정된 제 1 스코어(305)보다 작은 경우, 인증 주기는 제 2 인증 주기(303)(예컨대, 4초 주기)로 가변될 수 있다. 여기서, 제 2 인증 주기(303)는 제 1 인증 주기(303)보다 짧은 주기일 수 있다. For example, referring to FIG. 3B, when the real-time authentication score is greater than the preset first score 301, the authentication cycle may be changed to the first authentication cycle 303 (eg, an 8 second cycle). Additionally, when the real-time authentication score is smaller than the preset first score 305, the authentication cycle may be changed to a second authentication cycle 303 (eg, a 4-second cycle). Here, the second authentication cycle 303 may be shorter than the first authentication cycle 303.

위험도 판단부(260)는 스코어 산출 서버(110)로부터 수신된 실시간 인증 스코어에 기초하여 화자에 대한 사칭 위험도를 판단할 수 있다. The risk determination unit 260 may determine the risk of impersonation for the speaker based on the real-time authentication score received from the score calculation server 110.

또한, 위험도 판단부(260)는 화자에 대한 사칭 위험도 판단 시 화자의 정보에 포함된 화자의 아이디를 이용하여 고객 센터 서버(미도시)에게 화자의 연령대 및 성별의 일치 여부에 대한 조회를 요청하고, 고객 센터 서버(미도시)로부터 수신된 화자의 연령대 및 성별의 일치 여부에 기초하여 화자에 대한 사칭 위험도를 판단할 수 있다. In addition, when determining the risk of impersonation for a speaker, the risk determination unit 260 uses the speaker's ID included in the speaker's information to request a customer center server (not shown) to inquire whether the speaker's age and gender match. , the risk of impersonation for the speaker can be determined based on whether the speaker's age and gender match received from the customer center server (not shown).

또한, 위험도 판단부(260)는 화자의 음성 지문이 기저장된 위험군 음성지문에 해당하는지 여부, 화자의 연령대(또는 성별)가 화자와 일치하는지 여부 또는 상담 중 화자의 분리 가능성 여부(예컨대, 2명 이상의 화자가 교대로 상담하는 경우 등) 등에 기초하여 화자에 대한 사칭 위험도를 다르게 판단할 수 있다. In addition, the risk determination unit 260 determines whether the speaker's voice fingerprint corresponds to a pre-stored risk group voice fingerprint, whether the speaker's age (or gender) matches the speaker, or whether the speaker may be separated during counseling (e.g., two people). The risk of impersonation for the speaker can be determined differently based on the case (e.g., when the above speakers take turns consulting).

또한, 위험도 판단부(260)는 화자와의 상담 과정 중에 화자에 대한 인증 결과 및 사칭 위험도에 대한 정보를 상담사의 단말(미도시)에게 제공할 수 있다.Additionally, the risk determination unit 260 may provide information about the speaker's authentication result and impersonation risk to the counselor's terminal (not shown) during the consultation process with the speaker.

예를 들면, 도 3c를 참조하면, 위험도 판단부(260)는 실시간 인증 스코어가 제 1 사칭 위험도 범위에 속하는 경우, 기저장된 위험군 음성지문(범죄자의 음성 지문)과 화자의 음성 지문 간의 비교를 통해 화자에 대한 사칭 위험도를 판단할 수 있다. 만일, 화자의 음성 지문이 기저장된 위험군 음성 지문과 일치하는 경우, 위험도 판단부(260)는 화자에 대한 사칭 위험도를 제일 위험한 수준인 위험도 상(309)으로 판단하고, 판단된 사칭 위험도에 대한 정보 및 화자에 대한 대응 메뉴얼 정보를 상담사의 단말(미도시)에게 제공하는 동시에 사이버 경찰 서버(미도시)에게 사칭 알림을 전송할 수 있다. 이 때, 위험도 판단부(260)는 범죄자의 수사에 도움이 되도록 일정시간 가상 상담을 진행하여 범죄자의 위치 추적 및 음성을 확보할 수 있다. For example, referring to FIG. 3C, when the real-time authentication score falls within the first impersonation risk range, the risk determination unit 260 compares the pre-stored voice fingerprint of the risk group (criminal's voice fingerprint) with the speaker's voice fingerprint. The risk of impersonation of the speaker can be determined. If the speaker's voice fingerprint matches the pre-stored voice fingerprint of the risk group, the risk determination unit 260 determines the risk of impersonation for the speaker as high risk 309, which is the most dangerous level, and provides information about the determined risk of impersonation. and response manual information for the speaker can be provided to the counselor's terminal (not shown), while simultaneously transmitting an impersonation notification to the cyber police server (not shown). At this time, the risk determination unit 260 may conduct virtual counseling for a certain period of time to track the location of the criminal and secure the voice to help with the investigation of the criminal.

다른 예로, 위험도 판단부(260)는 실시간 인증 스코어가 제 2 사칭 위험도 범위에 속하는 경우, 화자의 정보에 포함된 화자의 연령대가 화자와 일치하는지 여부 및 실시간 인증 스코어를 종합하여 화자에 대한 사칭 위험도를 판단할 수 있다. As another example, if the real-time authentication score falls within the second impersonation risk range, the risk determination unit 260 determines the impersonation risk for the speaker by determining whether the age range of the speaker included in the speaker information matches the speaker and the real-time authentication score. can be judged.

위험도 판단부(260)는 화자의 연령대가 일치하지 않는 경우, 화자에 대한 사칭 위험도를 위험도 중(311)으로 판단하고, 판단된 사칭 위험도에 대한 정보와 함께 대응 매뉴얼 정보를 상담사의 단말(미도시)에게 제공할 수 있다. If the age range of the speaker does not match, the risk determination unit 260 determines the risk of impersonation for the speaker as medium risk (311) and sends information on the judged impersonation risk along with response manual information to the counselor's terminal (not shown). ) can be provided to.

또 다른 예로, 위험도 판단부(260)는 상담 중의 인증된 화자가 변경된 경우, 상담사의 단말(미도시)로 화자 변경 알림 메시지를 전송함과 동시에 변경된 다른 화자와 인증된 화자와의 관계 확인을 안내하는 대응 매뉴얼 정보를 상담사의 단말(미도시)에게 제공할 수 있다. As another example, when the authenticated speaker changes during counseling, the risk determination unit 260 transmits a speaker change notification message to the counselor's terminal (not shown) and guides confirmation of the relationship between the other changed speaker and the authenticated speaker. Response manual information may be provided to the counselor's terminal (not shown).

또 다른 예로, 위험도 판단부(260)는 화자의 인증 실패의 원인이 화자의 실시간 실음성에 대한 음성 품질에 의한 경우, 화자에 대한 사칭 위험도를 위험도 하(313)으로 판단하고, 판단된 화자에 대한 사칭 위험도에 대한 정보를 상담사의 단말(미도시)에게 제공할 수 있다.As another example, if the cause of the speaker's authentication failure is the voice quality of the speaker's real-time real-time speech, the risk determination unit 260 determines the risk of impersonation for the speaker as low risk (313) and Information on the risk of impersonation can be provided to the counselor's terminal (not shown).

또한, 위험도 판단부(260)는 실시간 인증 스코어에 기초하여 화자에 대한 인증의 성공 또는 실패 여부를 판단할 수 있다. 예를 들면, 기설정된 횟수(1 회 내지 2회) 이하로 화자의 인증이 실패(즉, 사칭)되면, 위험도 판단부(260)는 상담사로 하여금 화자 본인이 통화하도록 유도하는 대응 매뉴얼을 상담사의 단말(미도시)로 제공할 수 있다. Additionally, the risk determination unit 260 may determine whether authentication for the speaker is successful or fails based on the real-time authentication score. For example, if the speaker's authentication fails (i.e., impersonation) less than a preset number of times (1 to 2 times), the risk determination unit 260 provides a response manual to the counselor to induce the speaker to make the call. It can be provided through a terminal (not shown).

만일, 기설정된 횟수 이상으로 화자의 인증이 실패되면, 사칭 위험도를 높게 설정하고, 설정된 사칭 위험도에 대한 정보와 함께 상담 종료를 포함하는 대응 매뉴얼 정보를 상담사의 단말(미도시)로 제공할 수 있다. 이 때, 화자를 사칭한 화자의 실음성은 학습 스토리지(미도시)에 사칭 목소리로 구분되어 저장될 수 있다.If the speaker's authentication fails more than a preset number of times, the impersonation risk can be set high, and information on the set impersonation risk as well as response manual information including termination of counseling can be provided to the counselor's terminal (not shown). . At this time, the actual voice of the speaker impersonating the speaker may be classified and stored as an impersonation voice in the learning storage (not shown).

위험도 판단부(260)는 실시간 인증 스코어에 기초하여 판단된 화자에 대한 사칭 위험도에 대한 정보를 스코어 산출 서버(110)에게 전송할 수 있다. 이 때, 스코어 산출 서버(110)는 수신한 화자에 대한 사칭 위험도에 대한 정보에 기초하여 화자의 실시간 실음성 및 화자의 기등록된 음성 지문 간 비교를 위한 인증 주기를 변경할 수 있다. The risk determination unit 260 may transmit information about the risk of impersonation of the speaker determined based on the real-time authentication score to the score calculation server 110. At this time, the score calculation server 110 may change the authentication cycle for comparison between the real-time real-time voice of the speaker and the speaker's pre-registered voice fingerprint based on the received information about the risk of impersonation of the speaker.

예를 들어, 도 3d를 참조하면, 화자에 대한 사칭 위험도가 위험도 상(315)에 해당하는 경우, 인증 주기는 제 3 인증 주기(317)(예컨대, 1초 주기)로 변경할 수 있다. 화자에 대한 사칭 위험도가 위험도 중(319)에 해당하는 경우, 인증 주기는 제 4 인증 주기(312)(예컨대, 5초 주기)로 변경될 수 있다. 화자에 대한 사칭 위험도가 위험도 하(323)에 해당하는 경우, 인증 주기는 제 5 인증 주기(325)(예컨대, 10초 주기)로 변경될 수 있다. For example, referring to FIG. 3D, if the risk of impersonation of the speaker is high 315, the authentication cycle can be changed to the third authentication cycle 317 (eg, 1 second cycle). If the risk of impersonation of the speaker is medium risk (319), the authentication cycle may be changed to the fourth authentication cycle (312) (eg, 5 second cycle). If the risk of impersonation of the speaker is low (323), the authentication cycle may be changed to the fifth authentication cycle (325) (eg, a 10-second cycle).

한편, 당업자라면, 음성 지문 조회부(200), 음성 지문 등록부(210), 실음성 획득부(220), 저장부(230), 실음성 전송부(240), 인증 결과 수신부(250) 및 위험도 판단부(260) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다. Meanwhile, those skilled in the art will know that a voice fingerprint inquiry unit 200, a voice fingerprint registration unit 210, a real voice acquisition unit 220, a storage unit 230, a real voice transmission unit 240, an authentication result reception unit 250, and a risk level. It will be fully understood that each of the determination units 260 may be implemented separately, or one or more of them may be integrated and implemented.

도 4는 본 발명의 일 실시예에 따른, 화자 인증 서버(100)에서 화자를 인증하는 방법을 나타낸 흐름도이다. Figure 4 is a flowchart showing a method of authenticating a speaker in the speaker authentication server 100, according to an embodiment of the present invention.

도 4에 도시된 실시예에 따른 화자 인증 방법은 도 1 내지 도 3d에 도시된 실시예에 따른 화자 인증 서버(100) 및 스코어 산출 서버(110)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 3d의 화자 인증 서버(100) 및 스코어 산출 서버(110)에 관하여 기술된 내용은 도 4에 도시된 실시예에 따른 화자 인증 방법에도 적용될 수 있다. The speaker authentication method according to the embodiment shown in FIG. 4 includes steps processed in time series in the speaker authentication server 100 and the score calculation server 110 according to the embodiment shown in FIGS. 1 to 3D. Therefore, even if the content is omitted below, the content described regarding the speaker authentication server 100 and the score calculation server 110 of FIGS. 1 to 3D can also be applied to the speaker authentication method according to the embodiment shown in FIG. 4.

도 4를 참조하면, 단계 S401에서 화자 인증 서버(100)는 화자의 실시간 상담 음성 정보로부터 화자의 실시간 실음성을 획득할 수 있다. Referring to FIG. 4, in step S401, the speaker authentication server 100 may obtain the speaker's real-time real-time speech quality from the speaker's real-time consultation voice information.

단계 S403에서 화자 인증 서버(100)는 화자의 실시간 실음성을 스코어 산출 서버(110)에게 전송할 수 있다. In step S403, the speaker authentication server 100 may transmit the real-time real-time speech of the speaker to the score calculation server 110.

단계 S405에서 화자 인증 서버(100)는 기설정된 인증 주기마다의 화자의 실시간 실음성 및 화자의 기등록된 음성 지문 간의 비교에 기초한 화자의 실시간 인증 결과에 대한 실시간 인증 스코어를 스코어 산출 서버(110)로부터 수신할 수 있다. 여기서, 인증 주기는 실시간 인증 스코어에 기초하여 가변될 수 있다. In step S405, the speaker authentication server 100 calculates a real-time authentication score for the speaker's real-time authentication result based on comparison between the speaker's real-time actual voice at each preset authentication cycle and the speaker's pre-registered voice fingerprint. It can be received from. Here, the authentication cycle can be varied based on the real-time authentication score.

단계 S407에서 화자 인증 서버(100)는 수신된 인증 스코어에 기초하여 화자에 대한 사칭 위험도를 판단할 수 있다. In step S407, the speaker authentication server 100 may determine the risk of impersonation for the speaker based on the received authentication score.

상술한 설명에서, 단계 S401 내지 S407은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. In the above description, steps S401 to S407 may be further divided into additional steps or combined into fewer steps, depending on the implementation of the present invention. Additionally, some steps may be omitted or the order between steps may be changed as needed.

도 5는 본 발명의 일 실시예에 따른, 도 1에 도시된 스코어 산출 서버(110)의 블록도이다. Figure 5 is a block diagram of the score calculation server 110 shown in Figure 1, according to an embodiment of the present invention.

도 5를 참조하면, 스코어 산출 서버(110)는 음성 지문 등록부(500), 실음성 수신부(510), 실시간 인증 수행부(520), 인증 스코어 산출부(530), 인증 스코어 전송부(540) 및 인증 주기 설정부(550)를 포함할 수 있다. 다만, 도 5에 도시된 스코어 산출 서버(110)는 본 발명의 하나의 구현 예에 불과하며, 도 5에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다. Referring to FIG. 5, the score calculation server 110 includes a voice fingerprint registration unit 500, an actual voice reception unit 510, a real-time authentication performance unit 520, an authentication score calculation unit 530, and an authentication score transmission unit 540. and an authentication cycle setting unit 550. However, the score calculation server 110 shown in FIG. 5 is only one implementation example of the present invention, and various modifications are possible based on the components shown in FIG. 5.

음성 지문 등록부(500)는 음성 스토리지(미도시)에 기저장된 화자의 상담 음성 정보로부터 획득된 화자의 저장 실음성 및 화자의 정보를 포함하는 음성 지문 등록 요청을 화자 인증 서버(100)로부터 수신할 수 있다. 여기서, 화자의 저장 실음성은 화자의 상담 음성 정보에서 상담사의 저장 실음성, 묵음 기간, 생활 소음 및 화자의 단순 대답 실음성이 제거된 음성일 수 있다. The voice fingerprint registration unit 500 may receive from the speaker authentication server 100 a voice fingerprint registration request including the stored actual voice of the speaker and the speaker information obtained from the speaker's consultation voice information pre-stored in the voice storage (not shown). You can. Here, the speaker's stored real voice may be a voice in which the counselor's stored real voice, silence period, daily life noise, and the speaker's simple answer real voice are removed from the speaker's counseling voice information.

음성 지문 등록부(500)는 수신된 음성 지문 등록 요청에 포함된 화자의 저장 실음성을 학습하고, 화자의 정보 및 학습된 화자의 저장 실음성에 기초하여 화자의 음성 지문을 등록할 수 있다. 예를 들면, 음성 지문 등록부(500)는 화자의 저장 실음성을 학습하여 화자의 음성특징벡터를 생성하고, 생성된 화자의 음성특징벡터를 화자의 음성 지문으로 등록할 수 있다. The voice fingerprint registration unit 500 may learn the stored real voice of the speaker included in the received voice fingerprint registration request, and register the speaker's voice fingerprint based on the speaker information and the learned stored real voice of the speaker. For example, the voice fingerprint registration unit 500 may learn the speaker's stored real voice, generate the speaker's voice feature vector, and register the generated speaker's voice feature vector as the speaker's voice fingerprint.

실음성 수신부(510)는 화자 인증 서버(100)로부터 상담사와 상담 중인 화자의 실시간 실음성을 실시간으로 수신할 수 있다. 예를 들어, 실음성 수신부(510)는 상담사와 상담 중인 화자의 음성만이 포함된 화자의 실시간 실음성과 화자의 정보(예컨대, 화자의 식별 정보로서, 화자의 아이디 등)를 화자 인증 서버(100)로부터 수신할 수 있다. 여기서, 화자의 실시간 실음성은 화자의 실시간 상담 음성 정보로부터 획득될 수 있다. 예를 들어, 화자의 실시간 실음성은 화자의 실시간 상담 음성 정보에서 상담사의 실시간 실음성, 묵음 구간 및 생활 소음이 제거된 음성이고, 화자의 실시간 상담 음성 정보에서 화자의 단순 대답 실음성이 더 제거된 음성일 수 있다. The real voice reception unit 510 can receive real-time real voice of a speaker who is consulting with a counselor from the speaker authentication server 100 in real time. For example, the real speech receiver 510 sends real-time real speech of the speaker, which includes only the voice of the speaker who is consulting with the counselor, and speaker information (e.g., speaker identification information, speaker ID, etc.) to the speaker authentication server ( 100). Here, the speaker's real-time real-time voice quality can be obtained from the speaker's real-time consultation voice information. For example, the speaker's real-time real-time speech is the voice in which the counselor's real-time real-time speech, silence sections, and household noise are removed from the speaker's real-time consultation voice information, and the speaker's simple answer real-time speech is further removed from the speaker's real-time consultation voice information. It could be a voice.

실시간 인증 수행부(520)는 음성 지문 스토리지(미도시)에 기등록된 복수의 음성 지문 중 화자의 정보에 매핑되는 음성 지문을 추출하고, 추출된 화자의 기등록된 음성 지문과 화자의 실시간 실음성을 비교하여 기설정된 인증 주기마다 화자의 실시간 인증을 수행할 수 있다. 예를 들면, 실시간 인증 수행부(520)는 화자에 대한 인증이 1회 성공하기 전까지 기설정된 인증 주기(예컨대, 1초 주기)마다 화자의 실시간 실음성 및 화자의 기등록된 음성 지문을 비교함으로써 화자를 실시간으로 인증할 수 있다. The real-time authentication unit 520 extracts a voice fingerprint that is mapped to the speaker's information among a plurality of voice fingerprints pre-registered in the voice fingerprint storage (not shown), and combines the extracted speaker's pre-registered voice fingerprint with the speaker's real-time actual voice fingerprint. By comparing voices, real-time authentication of the speaker can be performed at each preset authentication cycle. For example, the real-time authentication unit 520 compares the speaker's real-time real-time voice and the speaker's pre-registered voice fingerprint at each preset authentication cycle (e.g., 1 second cycle) until the speaker is successfully authenticated once. Speakers can be authenticated in real time.

인증 스코어 산출부(530)는 화자의 실시간 인증의 결과에 대한 실시간 인증 스코어를 산출할 수 있다. 예를 들면, 인증 스코어 산출부(530)는 기등록된 음성 지문과 화자의 실시간 실음성의 일치 여부에 대한 유사도에 기초하여 실시간 인증 스코어를 산출할 수 있다. The authentication score calculation unit 530 can calculate a real-time authentication score for the result of real-time authentication of the speaker. For example, the authentication score calculation unit 530 may calculate a real-time authentication score based on the similarity between the pre-registered voice fingerprint and the real-time real-time voice of the speaker.

인증 스코어 전송부(540)는 산출된 실시간 인증 스코어를 화자 인증 서버(100)에게 전송할 수 있다. The authentication score transmitter 540 may transmit the calculated real-time authentication score to the speaker authentication server 100.

인증 주기 설정부(550)는 실시간 인증 스코어에 기초하여 인증 주기를 설정할 수 있다. 예를 들면, 인증 주기 설정부(550)는 산출된 실시간 인증 스코어가 기설정된 제 1 스코어보다 큰 경우, 인증 주기를 제 1 인증 주기)(예컨대, 8초 주기)로 변경하고, 실시간 인증 스코어가 제 1 스코어보다 작은 경우, 인증 주기를 제 2 인증 주기)(예컨대, 4초 주기)로 변경할 수 있다. 여기서, 제 2 인증 주기는 제 1 인증 주기보다 짧은 주기일 수 있다. The authentication cycle setting unit 550 can set the authentication cycle based on the real-time authentication score. For example, if the calculated real-time authentication score is greater than the preset first score, the authentication cycle setting unit 550 changes the authentication cycle to the first authentication cycle (e.g., 8 second cycle), and the real-time authentication score is If it is smaller than the first score, the authentication cycle can be changed to a second authentication cycle (eg, a 4-second cycle). Here, the second authentication cycle may be shorter than the first authentication cycle.

예를 들면, 인증 주기 설정부(550)는 화자에 대한 인증이 1회 성공한 이후에 화자의 실시간 실음성 및 화자의 기등록된 음성 지문을 비교를 통해 산출된 화자의 실시간 인증 결과에 대한 실시간 인증 스코어에 기초하여 인증 주기를 변경할 수 있다.For example, after successful authentication of the speaker once, the authentication cycle setting unit 550 performs real-time authentication of the speaker's real-time authentication result calculated by comparing the speaker's real-time real-time voice and the speaker's pre-registered voice fingerprint. The certification cycle can be changed based on the score.

인증 주기 설정부(550)는 실시간 인증 스코어에 기초하여 판단된 화자에 대한 사칭 위험도에 대한 정보를 화자 인증 서버(100)로부터 수신한 경우, 수신한 화자에 대한 사칭 위험도에 대한 정보에 기초하여 화자의 실시간 실음성 및 화자의 기등록된 음성 지문 간의 비교를 위한 인증 주기를 변경할 수 있다. When the authentication cycle setting unit 550 receives information about the risk of impersonation for the speaker determined based on the real-time authentication score from the speaker authentication server 100, the authentication cycle setting unit 550 determines the risk of impersonation for the speaker based on the received information about the risk of impersonation for the speaker. The authentication cycle for comparison between the real-time real-time voice quality and the speaker's pre-registered voice fingerprint can be changed.

예를 들면, 화자에 대한 사칭 위험도가 위험도 상에 해당하는 경우, 인증 주기 설정부(550)는 인증 주기를 제 3 인증 주기(예컨대, 1초 주기)로 변경할 수 있다. 또는, 화자에 대한 사칭 위험도가 위험도 중에 해당하는 경우, 인증 주기 설정부(550)는 인증 주기를 제 4 인증 주기(예컨대, 5초 주기)로 변경될 수 있다. 또는, 화자에 대한 사칭 위험도가 위험도 하에 해당하는 경우, 인증 주기 설정부(550)는 인증 주기를 제 5 인증 주기(예컨대, 10초 주기)로 변경할 수 있다. For example, if the risk of impersonating the speaker is high, the authentication cycle setting unit 550 may change the authentication cycle to a third authentication cycle (eg, 1 second cycle). Alternatively, if the risk of impersonating the speaker falls within the risk level, the authentication cycle setting unit 550 may change the authentication cycle to the fourth authentication cycle (eg, a 5-second cycle). Alternatively, if the risk of impersonation of the speaker falls under the risk level, the authentication cycle setting unit 550 may change the authentication cycle to the fifth authentication cycle (eg, a 10-second cycle).

이후, 실시간 인증 수행부(520)는 변경된 인증 주기마다 화자의 기등록된 음성 지문과 화자의 실시간 실음성을 비교하여 화자의 실시간 인증을 수행할 수 있다. Thereafter, the real-time authentication performing unit 520 may perform real-time authentication of the speaker by comparing the speaker's pre-registered voice fingerprint with the speaker's real-time real-time speech at each changed authentication cycle.

이후, 음성 지문 등록부(500)는 상담사와 화자의 상담이 종료되면, 화자 인증에 성공한 실시간 실음성과 해당 화자의 기등록된 음성 지문에 기초하여 화자의 음성 지문을 업데이트할 수 있다. 예를 들면, 음성 지문 등록부(500)는 화자 인증에 성공한 실시간 실음성으로부터 화자의 음성특징벡터를 생성하고, 생성된 화자의 음성특징벡터를 화자의 음성 지문으로 재등록할 수 있다. Thereafter, when the consultation between the counselor and the speaker is completed, the voice fingerprint registration unit 500 may update the speaker's voice fingerprint based on the real-time real voice that successfully authenticated the speaker and the speaker's pre-registered voice fingerprint. For example, the voice fingerprint registration unit 500 may generate a speaker's voice feature vector from real-time real-time speech that successfully authenticates the speaker, and re-register the generated speaker's voice feature vector as the speaker's voice fingerprint.

한편, 당업자라면, 음성 지문 등록부(500), 실음성 수신부(510), 실시간 인증 수행부(520), 인증 스코어 산출부(530), 인증 스코어 전송부(540) 및 인증 주기 설정부(550) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다. Meanwhile, those skilled in the art will know that the voice fingerprint registering unit 500, the real voice receiving unit 510, the real-time authentication performing unit 520, the authentication score calculating unit 530, the authentication score transmitting unit 540, and the authentication cycle setting unit 550. It will be fully understood that each may be implemented separately, or one or more of them may be implemented integratedly.

도 6은 본 발명의 일 실시예에 따른, 스코어 산출 서버(110)에서 화자를 인증하는 방법을 나타낸 흐름도이다. Figure 6 is a flowchart showing a method of authenticating a speaker in the score calculation server 110 according to an embodiment of the present invention.

도 6에 도시된 실시예에 따른 화자 인증 방법은 도 1 내지 도 5에 도시된 실시예에 따른 화자 인증 서버(100) 및 스코어 산출 서버(110)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 5의 화자 인증 서버(100) 및 스코어 산출 서버(110)에 관하여 기술된 내용은 도 6에 도시된 실시예에 따른 화자 인증 방법에도 적용될 수 있다. The speaker authentication method according to the embodiment shown in FIG. 6 includes steps processed in time series in the speaker authentication server 100 and the score calculation server 110 according to the embodiment shown in FIGS. 1 to 5. Therefore, even if the content is omitted below, the content described regarding the speaker authentication server 100 and the score calculation server 110 of FIGS. 1 to 5 can also be applied to the speaker authentication method according to the embodiment shown in FIG. 6.

도 6을 참조하면, 단계 S601에서 스코어 산출 서버(110)는 화자 인증 서버(100)로부터 화자의 실시간 실음성을 수신할 수 있다. 여기서, 화자의 실시간 실음성은 화자의 실시간 상담 음성 정보로부터 획득될 수 있다. Referring to FIG. 6, in step S601, the score calculation server 110 may receive the real-time real-time speech quality of the speaker from the speaker authentication server 100. Here, the speaker's real-time real-time voice quality can be obtained from the speaker's real-time consultation voice information.

단계 S603에서 스코어 산출 서버(110)는 화자의 실시간 실음성 및 화자의 기등록된 음성 지문을 비교하여 기설정된 인증 주기마다 화자의 실시간 인증을 수행할 수 있다. 여기서, 인증 주기는 실시간 인증 스코어에 기초하여 가변될 수 있다. In step S603, the score calculation server 110 may perform real-time authentication of the speaker at each preset authentication cycle by comparing the real-time real-time voice of the speaker with the speaker's pre-registered voice fingerprint. Here, the authentication cycle can be varied based on the real-time authentication score.

단계 S605에서 스코어 산출 서버(110)는 화자의 실시간 인증의 결과에 대한 실시간 인증 스코어를 산출할 수 있다. In step S605, the score calculation server 110 may calculate a real-time authentication score for the result of the speaker's real-time authentication.

단계 S607에서 스코어 산출 서버(110)는 실시간 인증 스코어를 화자 인증 서버(100)에게 전송할 수 있다. In step S607, the score calculation server 110 may transmit the real-time authentication score to the speaker authentication server 100.

상술한 설명에서, 단계 S601 내지 S607은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. In the above description, steps S601 to S607 may be further divided into additional steps or combined into fewer steps, depending on the implementation of the present invention. Additionally, some steps may be omitted or the order between steps may be changed as needed.

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. One embodiment of the present invention may also be implemented in the form of a recording medium containing instructions executable by a computer, such as program modules executed by a computer. Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and non-volatile media, removable and non-removable media. Additionally, computer-readable media may include all computer storage media. Computer storage media includes both volatile and non-volatile, removable and non-removable media implemented in any method or technology for storage of information such as computer-readable instructions, data structures, program modules or other data.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다. The description of the present invention described above is for illustrative purposes, and those skilled in the art will understand that the present invention can be easily modified into other specific forms without changing the technical idea or essential features of the present invention. will be. Therefore, the embodiments described above should be understood in all respects as illustrative and not restrictive. For example, each component described as unitary may be implemented in a distributed manner, and similarly, components described as distributed may also be implemented in a combined form.

본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다. The scope of the present invention is indicated by the claims described later rather than the detailed description, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. .

100: 화자 인증 서버
110: 스코어 산출 서버
200: 음성 지문 조회부
210: 음성 지문 등록부
220: 실음성 획득부
230: 저장부
240: 실음성 전송부
250: 인증 결과 수신부
260: 위험도 판단부
500: 음성 지문 등록부
510: 실음성 수신부
520: 실시간 인증 수행부
530: 인증 스코어 산출부
540: 인증 스코어 전송부
550: 인증 주기 설정부
100: Speaker authentication server
110: Score calculation server
200: Voice fingerprint inquiry unit
210: Voice fingerprint register
220: Real voice acquisition unit
230: storage unit
240: Real voice transmission unit
250: Authentication result receiving unit
260: Risk judgment unit
500: Voice fingerprint register
510: Real voice receiver
520: Real-time authentication department
530: Certification score calculation unit
540: Certification score transmission unit
550: Authentication cycle setting unit

Claims (19)

상담사와 상담하는 화자를 인증하는 화자 인증 서버에 있어서,
상기 화자의 실시간 상담 음성 정보로부터 상기 화자의 실시간 실음성을 획득하는 실음성 획득부;
상기 화자의 실시간 실음성을 스코어 산출 서버로 전송하는 실음성 전송부;
기설정된 인증 주기마다의 상기 화자의 실시간 실음성 및 상기 화자의 기등록된 음성 지문 간의 비교에 기초한 상기 화자의 실시간 인증 결과에 대한 실시간 인증 스코어를 상기 스코어 산출 서버로부터 수신하는 인증 결과 수신부; 및
상기 수신된 실시간 인증 스코어에 기초하여 상기 화자에 대한 사칭 위험도를 판단하는 위험도 판단부를 포함하고,
상기 인증 주기는 상기 실시간 인증 스코어에 기초하여 가변되는 것이고,
상기 실시간 인증 스코어가 기설정된 제 1 스코어보다 큰 경우, 상기 인증 주기는 제 1 인증 주기로 가변되고,
상기 실시간 인증 스코어가 상기 제 1 스코어보다 작은 경우, 상기 인증 주기는 제 2 인증 주기로 가변되고,
상기 제 2 인증 주기는 상기 제 1 인증 주기보다 짧은 것인, 화자 인증 서버.
In the speaker authentication server that authenticates the speaker consulting with the counselor,
a real-time speech acquisition unit that acquires the real-time real-time speech of the speaker from the real-time consultation voice information of the speaker;
a real-time speech transmission unit that transmits the real-time real-time speech of the speaker to a score calculation server;
an authentication result receiving unit that receives, from the score calculation server, a real-time authentication score for the real-time authentication result of the speaker based on comparison between the real-time real-time voice of the speaker at each preset authentication cycle and the speaker's pre-registered voice fingerprint; and
A risk determination unit that determines the risk of impersonation for the speaker based on the received real-time authentication score,
The authentication cycle is variable based on the real-time authentication score,
If the real-time authentication score is greater than the preset first score, the authentication cycle is changed to the first authentication cycle,
If the real-time authentication score is less than the first score, the authentication cycle is changed to a second authentication cycle,
A speaker authentication server, wherein the second authentication cycle is shorter than the first authentication cycle.
제 1 항에 있어서,
음성 스토리지에 기저장된 상기 화자의 상담 음성 정보로부터 상기 화자의 저장 실음성을 획득하고, 상기 획득된 화자의 저장 실음성 및 상기 화자의 정보를 포함하는 음성 지문 등록 요청을 상기 스코어 산출 서버로 전송하는 음성 지문 등록부를 더 포함하는 것인, 화자 인증 서버.
According to claim 1,
Obtaining the stored real voice of the speaker from the speaker's consultation voice information previously stored in voice storage, and transmitting a voice fingerprint registration request including the acquired stored real voice of the speaker and the speaker's information to the score calculation server. A speaker authentication server further comprising a voice fingerprint register.
제 2 항에 있어서,
상기 화자의 정보에 기초하여 상기 화자의 음성 지문을 상기 스코어 산출 서버를 통해 조회하는 음성 지문 조회부를 더 포함하는 것인, 화자 인증 서버.
According to claim 2,
A speaker authentication server further comprising a voice fingerprint search unit that searches the speaker's voice fingerprint through the score calculation server based on the speaker's information.
제 1 항에 있어서,
상기 획득된 화자의 실시간 실음성을 슬라이딩 윈도우 방식으로 학습 스토리지에 저장하는 저장부를 더 포함하는 것인, 화자 인증 서버.
According to claim 1,
A speaker authentication server further comprising a storage unit that stores the acquired real-time real-time speech quality of the speaker in a learning storage using a sliding window method.
제 1 항에 있어서,
상기 화자의 실시간 실음성은 상기 화자의 실시간 상담 음성 정보에서 상기 상담사의 실시간 실음성, 묵음 구간 및 생활 소음이 제거된 음성인 것인, 화자 인증 서버.
According to claim 1,
A speaker authentication server, wherein the real-time real-time speech of the speaker is a voice in which the real-time real-time speech of the counselor, silent sections, and household noise are removed from the real-time counseling voice information of the speaker.
제 5 항에 있어서,
상기 화자의 실시간 실음성은 상기 화자의 실시간 상담 음성 정보에서 상기 화자의 단순 대답 실음성이 더 제거된 것인, 화자 인증 서버.
According to claim 5,
A speaker authentication server, wherein the real-time real-time speech quality of the speaker is further removed from the speaker's real-time consultation voice information.
제 5 항에 있어서,
상기 스코어 산출 서버는 상기 수신된 화자의 저장 실음성을 학습하고, 상기 화자의 정보 및 상기 학습된 화자의 저장 실음성에 기초하여 상기 화자의 음성 지문을 등록하는 것인, 화자 인증 서버.
According to claim 5,
The score calculation server learns the received stored real voice of the speaker, and registers the speaker's voice fingerprint based on the speaker information and the learned stored real voice of the speaker.
삭제delete 상담사와 상담하는 화자를 인증하는 화자 인증 서버에 있어서,
상기 화자의 실시간 상담 음성 정보로부터 상기 화자의 실시간 실음성을 획득하는 실음성 획득부;
상기 화자의 실시간 실음성을 스코어 산출 서버로 전송하는 실음성 전송부;
기설정된 인증 주기마다의 상기 화자의 실시간 실음성 및 상기 화자의 기등록된 음성 지문 간의 비교에 기초한 상기 화자의 실시간 인증 결과에 대한 실시간 인증 스코어를 상기 스코어 산출 서버로부터 수신하는 인증 결과 수신부; 및
상기 수신된 실시간 인증 스코어에 기초하여 상기 화자에 대한 사칭 위험도를 판단하는 위험도 판단부를 포함하고,
상기 인증 주기는 상기 실시간 인증 스코어에 기초하여 가변되는 것이고
상기 인증 주기는 상기 화자에 대한 사칭 위험도에 기초하여 가변되는 것인, 화자 인증 서버.
In the speaker authentication server that authenticates the speaker consulting with the counselor,
a real-time speech acquisition unit that acquires the real-time real-time speech of the speaker from the real-time consultation voice information of the speaker;
a real-time speech transmission unit that transmits the real-time real-time speech of the speaker to a score calculation server;
an authentication result receiving unit that receives, from the score calculation server, a real-time authentication score for the real-time authentication result of the speaker based on comparison between the real-time real-time voice of the speaker at each preset authentication cycle and the speaker's pre-registered voice fingerprint; and
A risk determination unit that determines the risk of impersonation for the speaker based on the received real-time authentication score,
The authentication cycle is variable based on the real-time authentication score.
A speaker authentication server wherein the authentication cycle is variable based on the risk of impersonation for the speaker.
상담사와 상담하는 화자를 인증하는 스코어 산출 서버에 있어서,
화자 인증 서버로부터 상기 화자의 실시간 실음성을 수신하는 실음성 수신부;
상기 화자의 실시간 실음성 및 상기 화자의 기등록된 음성 지문을 비교하여 기설정된 인증 주기마다 상기 화자의 실시간 인증을 수행하는 실시간 인증 수행부;
상기 화자의 실시간 인증의 결과에 대한 실시간 인증 스코어를 산출하는 인증 스코어 산출부; 및
상기 실시간 인증 스코어를 상기 화자 인증 서버로 전송하는 인증 스코어 전송부
를 포함하고,
상기 화자의 실시간 실음성은 상기 화자의 실시간 상담 음성 정보로부터 획득되고,
상기 인증 주기는 상기 실시간 인증 스코어에 기초하여 가변되는 것이고,
상기 인증 주기 설정부는
상기 실시간 인증 스코어가 기설정된 제 1 스코어보다 큰 경우, 상기 인증 주기를 제 1 인증 주기로 변경하고,
상기 실시간 인증 스코어가 상기 제 1 스코어보다 작은 경우, 상기 인증 주기를 제 2 인증 주기로 변경하고,
상기 제 2 인증 주기는 상기 제 1 인증 주기보다 짧은 것인, 스코어 산출 서버.
In the score calculation server that authenticates the speaker consulting with the counselor,
a real-time speech reception unit that receives real-time real-time speech of the speaker from a speaker authentication server;
a real-time authentication unit that performs real-time authentication of the speaker at preset authentication cycles by comparing the speaker's real-time real-time voice quality with the speaker's pre-registered voice fingerprint;
an authentication score calculation unit that calculates a real-time authentication score for the result of real-time authentication of the speaker; and
Authentication score transmission unit that transmits the real-time authentication score to the speaker authentication server
Including,
The real-time real-time speech quality of the speaker is obtained from the real-time consultation voice information of the speaker,
The authentication cycle is variable based on the real-time authentication score,
The authentication cycle setting unit
If the real-time authentication score is greater than the preset first score, change the authentication cycle to the first authentication cycle,
If the real-time authentication score is less than the first score, change the authentication cycle to a second authentication cycle,
The score calculation server, wherein the second authentication cycle is shorter than the first authentication cycle.
제 10 항에 있어서,
음성 스토리지에 기저장된 상기 화자의 상담 음성 정보로부터 획득된 상기 화자의 저장 실음성 및 상기 화자의 정보를 포함하는 음성 지문 등록 요청을 상기 화자 인증 서버로부터 수신하는 음성 지문 등록부를 더 포함하는 것인, 스코어 산출 서버.
According to claim 10,
It further comprises a voice fingerprint registration unit that receives a voice fingerprint registration request including the stored actual voice of the speaker and the speaker information obtained from the speaker's consultation voice information pre-stored in voice storage from the speaker authentication server, Score calculation server.
제 11 항에 있어서,
상기 음성 지문 등록부는 상기 화자의 저장 실음성을 학습하고, 상기 화자의 정보 및 상기 학습된 화자의 저장 실음성에 기초하여 상기 화자의 음성 지문을 등록하는 것인, 스코어 산출 서버.
According to claim 11,
The voice fingerprint registration unit learns the stored real voice of the speaker, and registers the speaker's voice fingerprint based on the speaker's information and the learned stored real voice of the speaker.
제 11 항에 있어서,
상기 음성 지문 등록부는 상기 상담사와 상기 화자 간의 상담이 종료된 후, 상기 실시간 실음성 및 상기 화자의 기등록된 음성 지문에 기초하여 상기 화자의 음성 지문을 업데이트 하는 것인, 스코어 산출 서버.
According to claim 11,
The voiceprint registering unit updates the speaker's voiceprint based on the real-time actual voice and the speaker's pre-registered voiceprint after the consultation between the counselor and the speaker is terminated.
상담사와 상담하는 화자를 인증하는 스코어 산출 서버에 있어서,
화자 인증 서버로부터 상기 화자의 실시간 실음성을 수신하는 실음성 수신부;
상기 화자의 실시간 실음성 및 상기 화자의 기등록된 음성 지문을 비교하여 기설정된 인증 주기마다 상기 화자의 실시간 인증을 수행하는 실시간 인증 수행부;
상기 화자의 실시간 인증의 결과에 대한 실시간 인증 스코어를 산출하는 인증 스코어 산출부; 및
상기 실시간 인증 스코어를 상기 화자 인증 서버로 전송하는 인증 스코어 전송부
를 포함하고,
상기 화자의 실시간 실음성은 상기 화자의 실시간 상담 음성 정보로부터 획득되고,
상기 인증 주기는 상기 실시간 인증 스코어에 기초하여 가변되는 것이고,
상기 실시간 인증 스코어에 기초하여 상기 인증 주기를 설정하는 인증 주기 설정부를 더 포함하는 것인, 스코어 산출 서버.
In the score calculation server that authenticates the speaker consulting with the counselor,
a real-time speech reception unit that receives real-time real-time speech of the speaker from a speaker authentication server;
a real-time authentication unit that performs real-time authentication of the speaker at preset authentication cycles by comparing the speaker's real-time real-time voice quality with the speaker's pre-registered voice fingerprint;
an authentication score calculation unit that calculates a real-time authentication score for the result of real-time authentication of the speaker; and
Authentication score transmission unit that transmits the real-time authentication score to the speaker authentication server
Including,
The real-time real-time speech quality of the speaker is obtained from the real-time consultation voice information of the speaker,
The authentication cycle is variable based on the real-time authentication score,
A score calculation server further comprising an authentication cycle setting unit that sets the authentication cycle based on the real-time authentication score.
삭제delete 화자 인증 서버에서 상담사와 상담하는 화자를 인증하는 방법에 있어서,
상기 화자의 실시간 상담 음성 정보로부터 상기 화자의 실시간 실음성을 획득하는 단계;
상기 화자의 실시간 실음성을 스코어 산출 서버로 전송하는 단계;
기설정된 인증 주기마다의 상기 화자의 실시간 실음성 및 상기 화자의 기등록된 음성 지문 간의 비교에 기초한 상기 화자의 실시간 인증 결과에 대한 실시간 인증 스코어를 상기 스코어 산출 서버로부터 수신하는 단계; 및
상기 수신된 실시간 인증 스코어에 기초하여 상기 화자에 대한 사칭 위험도를 판단하는 단계를 포함하고,
상기 인증 주기는 상기 실시간 인증 스코어에 기초하여 가변되는 것이고,
상기 실시간 인증 스코어가 기설정된 제 1 스코어보다 큰 경우, 상기 인증 주기는 제 1 인증 주기로 가변되고,
상기 실시간 인증 스코어가 상기 제 1 스코어보다 작은 경우, 상기 인증 주기는 제 2 인증 주기로 가변되고,
상기 제 2 인증 주기는 상기 제 1 인증 주기보다 짧은 것인, 화자 인증 방법.
In a method of authenticating a speaker consulting with a counselor in a speaker authentication server,
Obtaining the real-time real-time speech quality of the speaker from the real-time consultation voice information of the speaker;
Transmitting the real-time real-time speech of the speaker to a score calculation server;
Receiving a real-time authentication score for the real-time authentication result of the speaker from the score calculation server based on comparison between the real-time real-time voice of the speaker at each preset authentication cycle and the speaker's pre-registered voice fingerprint; and
A step of determining a risk of impersonation for the speaker based on the received real-time authentication score,
The authentication cycle is variable based on the real-time authentication score,
If the real-time authentication score is greater than the preset first score, the authentication cycle is changed to the first authentication cycle,
If the real-time authentication score is less than the first score, the authentication cycle is changed to a second authentication cycle,
A speaker authentication method, wherein the second authentication cycle is shorter than the first authentication cycle.
제 16 항에 있어서,
음성 스토리지에 기저장된 상기 화자의 상담 음성 정보로부터 상기 화자의 저장 실음성을 획득하고, 상기 획득된 화자의 저장 실음성 및 상기 화자의 정보를 포함하는 음성 지문 등록 요청을 상기 스코어 산출 서버로 전송하는 단계를 더 포함하는 것인, 화자 인증 방법.
According to claim 16,
Obtaining the stored real voice of the speaker from the speaker's consultation voice information previously stored in voice storage, and transmitting a voice fingerprint registration request including the acquired stored real voice of the speaker and the speaker's information to the score calculation server. A speaker authentication method further comprising steps.
제 17 항에 있어서,
상기 화자의 정보에 기초하여 상기 화자의 음성 지문을 상기 스코어 산출 서버를 통해 조회하는 단계를 더 포함하는 것인, 화자 인증 방법.
According to claim 17,
A speaker authentication method further comprising querying the speaker's voice fingerprint through the score calculation server based on the speaker information.
제 16 항에 있어서,
상기 획득된 화자의 실시간 실음성을 슬라이딩 윈도우 방식으로 학습 스토리지에 저장하는 단계를 더 포함하는 것인, 화자 인증 방법.
According to claim 16,
A speaker authentication method further comprising the step of storing the acquired real-time real-time speech quality of the speaker in a learning storage using a sliding window method.
KR1020180105801A 2018-09-05 2018-09-05 Server and method for authenticating speaker during call to counselor KR102621881B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180105801A KR102621881B1 (en) 2018-09-05 2018-09-05 Server and method for authenticating speaker during call to counselor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180105801A KR102621881B1 (en) 2018-09-05 2018-09-05 Server and method for authenticating speaker during call to counselor

Publications (2)

Publication Number Publication Date
KR20200027688A KR20200027688A (en) 2020-03-13
KR102621881B1 true KR102621881B1 (en) 2024-01-05

Family

ID=69938634

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180105801A KR102621881B1 (en) 2018-09-05 2018-09-05 Server and method for authenticating speaker during call to counselor

Country Status (1)

Country Link
KR (1) KR102621881B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102575038B1 (en) * 2020-07-14 2023-09-07 (주)날리지포인트 Apparatus and method for video conferencing service
KR102424848B1 (en) * 2021-10-07 2022-07-25 주식회사 두유비 Realtime consultation quality evaluation method of electronic apparatus for utilizing consultation pattern model of best consultant based on artificial intelligence, and system

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
KR100418113B1 (en) * 2001-09-07 2004-02-11 주식회사 엠보이스텔레소프트 Special Communication System using Speech Recognition and Communication Service Providing Method using the same
KR20110079161A (en) * 2009-12-31 2011-07-07 삼성전자주식회사 Method and apparatus for verifying speaker in mobile terminal
KR101304112B1 (en) * 2011-12-27 2013-09-05 현대캐피탈 주식회사 Real time speaker recognition system and method using voice separation
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
KR101657243B1 (en) * 2014-09-30 2016-09-30 남기원 Online secret data managing system and method of the same
CN104616655B (en) 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 The method and apparatus of sound-groove model automatic Reconstruction

Also Published As

Publication number Publication date
KR20200027688A (en) 2020-03-13

Similar Documents

Publication Publication Date Title
US11301555B2 (en) Authentication system
US10681032B2 (en) System and method for voice authentication
US9118669B2 (en) Method and apparatus for voice signature authentication
US9484037B2 (en) Device, system, and method of liveness detection utilizing voice biometrics
US10650824B1 (en) Computer systems and methods for securing access to content provided by virtual assistants
CN106373575B (en) User voiceprint model construction method, device and system
US8862888B2 (en) Systems and methods for three-factor authentication
US8812319B2 (en) Dynamic pass phrase security system (DPSS)
US10971159B2 (en) Cross account access for a virtual personal assistant via voice printing
US20070106517A1 (en) System and method of subscription identity authentication utilizing multiple factors
US20140310786A1 (en) Integrated interactive messaging and biometric enrollment, verification, and identification system
EP2779012A1 (en) Pro-Active Identity Verification For Authentication Of Transaction Initiated Via Non-Voice Channel
WO2014166362A1 (en) Method, server, client and system for verifying verification codes
US8941741B1 (en) Authentication using a video signature
EP4009206A1 (en) System and method for authenticating a user by voice to grant access to data
KR102621881B1 (en) Server and method for authenticating speaker during call to counselor
CN104901808A (en) Voiceprint authentication system and method based on time type dynamic password
US20120330663A1 (en) Identity authentication system and method
KR101424962B1 (en) Authentication system and method based by voice
US20220392453A1 (en) Limiting identity space for voice biometric authentication
US20220392452A1 (en) Limiting identity space for voice biometric authentication
WO2014172502A1 (en) Integrated interactive messaging and biometric enrollment, verification, and identification system
EP3465677A1 (en) System and method for voice authentication
KR20170106874A (en) Method and system for confirmation of user's identity using biometric information
BRPI1103088A2 (en) AUTHENTIC TRANSACTION AUTHENTICATION SYSTEM AND PROCESS USING MOBILE PHONE

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant