KR20010009081A

KR20010009081A - 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법

Info

Publication number: KR20010009081A
Application number: KR1019990027247A
Authority: KR
Inventors: 공병구; 김상룡
Original assignee: 윤종용; 삼성전자 주식회사
Priority date: 1999-07-07
Filing date: 1999-07-07
Publication date: 2001-02-05
Also published as: KR100297833B1; US6496800B1

Abstract

본 발명은 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법에 관한 것으로, 비고정 연속 숫자를 생성하는 랜덤 숫자 생성부; 상기 랜덤 숫자 생성부에서 생성된 비고정 연속 숫자를 사용자에게 출력하고, 출력된 상기 비고정 연속 숫자에 대한 사용자의 음성 입력을 수신하는 사용자 인터페이스부; 상기 사용자 인터페이스부를 통하여 수신된 음성 신호의 음성 특징을 추출하는 특징 추출부; 상기 특징 추출부에서 추출된 음성 특징을 화자 독립 연속 숫자음 모델의 항목들과 비교하여 매칭되는 항목에 대응하는 숫자를 추출하고, 상기 사용자 인터페이스부를 통하여 출력된 숫자와 동일한지 여부를 판별하는 숫자음 검증부; 및 상기 숫자음 검증부에서 동일 판정이 난 경우에, 상기 특징 추출부에서 추출된 음성 특징을 해당 사용자의 화자 모델과 비교하여 그 유사도를 측정하고, 상기 유사도에 근거하여 화자 인정 여부를 결정하는 화자 검증부를 포함함을 특징으로 한다.

본 발명에 의하면, 비고정 연속 숫자를 랜덤 생성하여 방식에 의하여 시스템의 처리 속도를 향상시킬 수 있을 뿐만 아니라, 임의성을 높여서 음성 도용의 가능성을 제거할 수 있다. 또한, 유사도 편차를 이용하여 기계에 의한 음성 도용을 방비할 수 있으며, 인정 결정이 날때마다 해당 화자 정보를 보완하여 재구성함으로써 더욱 정확한 화자 정보를 유지할 수 있다.

Description

비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법{Speaker verification system using continuous digits with flexible figures and method thereof}

본 발명은 음성을 이용하여 사용자를 인식하는 화자 검증 시스템에 관한 것으로, 특히 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법에 관한 것이다.

다양한 응용 분야에서, 특정 서비스에 대한 접근을 요구하는 사용자에 대한 보안 확인 작업이 필요하다. 예를 들어, 뱅킹 서비스, 인터넷 상거래, 신용카드 조회 서비스 등에서 서비스에 대한 접근을 요구하는 사용자가 진정으로 사용 권한이 있는 자인지 확인할 필요가 있다. 이러한 사용자 인증 작업을 위하여 가장 널리 사용되고 있는 방법이 비밀 번호(passwords) 또는 개인 확인 코드(personal identification numbers; PIN)를 사용하는 방법이다. 그러나 비밀 번호를 이용하는 방식에서는 사용자가 비밀번호를 항상 정확히 기억하고 있어야 하는 문제점을 가지고 있으며, 이때문에 사용자는 기억의 편리를 위하여 쉽게 회상할 수 있는 비밀번호를 사용하는 경향이 있고, 이로 인하여 비밀번호의 도용이라는 문제에 쉽게 노출되어 있었다.

이러한 문제점을 극복하기 위하여 생체 공학적 보안 기술, 즉 개인의 생체 공학적 특징을 이용하여 개인을 식별하는 기술에 대한 관심이 증가되고 있다. 그 대표적인 것으로 사용자의 음성을 통하여 사용자를 식별하는 방법이다. 개인의 음성 특징을 이용하여 사용자를 식별하는 방식은 가격면이나 구현 측면에서 기타의 방법, 예를 들어 개인의 지문을 이용하여 사용자를 식별하는 방식 등에 비하여 다양한 장점을 가지고 있다. 전화망 또는 인터넷을 이용한 원격 상거래에서 보안 확인 작업을 사용자의 기억에 근거한 비밀 번호 등에 의존하지 않고, 사용자의 음성에 의하여 즉각적으로 사용자를 확인할 수 있으며, 보완이 요구되는 장소에 대한 접근 제어 문제도 음성 확인 기술을 사용하여 매우 간단히 처리할 수 있다. 이러한 음성을 이용하여 사용자를 식별하는 방식에서는 특정 음성에 대한 다양한 음성 파라미터를 상호 비교하여 음성 검증을 수행한다. 이러한 파라미터에는 피치 주기, 음성 강도, 양식, 기타의 음성 특징이 포함된다.

그러나 종래의 대부분의 음성 인식 시스템은 텍스트 의존적(text-dependent) 방식, 다시 말하면, 시스템은 '미리 기억된 참조 스크립트'를 사용하여 사용자에게 이에 따른 음성 입력을 요구하는 방식을 사용하였다. 따라서, 보안 검증을 위하여 사용자에 의하여 발성되어야 하는 음성이 미리 결정되어 있으므로, 테이프 레코드 등을 사용한 음성 도용의 가능성이 항시 존재하였다. 또한, 텍스트 의존적 방식의 문제점을 극복하기 위한 텍스트 독립적인 방식에 있어서도 다양한 음성 특징을 저장하는 광대한 데이타 베이스 관리로 인하여 처리 속도에서 문제점이 있다.

본 발명이 이루고자 하는 기술적인 과제는 상기의 문제점을 해결하기 위해, 간단한 숫자열을 사용하여 처리 속도를 향상시킬 뿐만 아니라, 임의성을 높여서 음성 도용의 가능성을 제거하고, 또한 기계음 판독 메카니즘을 구비하는 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법을 제공하는데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는 상기 화자 검증 시스템에서 구현되는 화자 등록 방법을 아울러 제공하는데 있다.

도 1은 본 발명의 일 실시예에 따른 화자 검증 시스템의 전체 구성을 개략적으로 도시한 블록도이다.

도 2는 본 발명의 일 실시예에 따라, 음성 입출력 처리를 중심으로 구성된 도 1에 도시한 화자 검증 서버의 상세 블록도이다.

도 3a는 본 발명의 일 실시예에 따른 비고정 연속 숫자음을 이용한 화자 검증 과정에 대한 흐름도이다.

도 3b는 본 발명의 일 실시예에 따라, 도 3a에 도시한 인증 결정 과정에 대한 상세 흐름도이다.

도 4는 본 발명의 일 실시예에 따른 화자 검증 시스템에서의 화자 등록 과정에 대한 흐름도이다.

상기 기술적 과제를 해결하기 위하여, 본 발명에 일측면에 의한 비고정 연속 숫자음을 이용한 화자 검증 시스템은 비고정 연속 숫자를 생성하는 랜덤 숫자 생성부; 상기 랜덤 숫자 생성부에서 생성된 비고정 연속 숫자를 사용자에게 출력하고, 출력된 상기 비고정 연속 숫자에 대한 사용자의 음성 입력을 수신하는 사용자 인터페이스부; 상기 사용자 인터페이스부를 통하여 수신된 음성 신호의 음성 특징을 추출하는 특징 추출부; 상기 특징 추출부에서 추출된 음성 특징을 화자 독립 연속 숫자음 모델의 항목들과 비교하여 매칭되는 항목에 대응하는 숫자를 추출하고, 상기 사용자 인터페이스부를 통하여 출력된 숫자와 동일한지 여부를 판별하는 숫자음 검증부; 및 상기 숫자음 검증부에서 동일 판정이 난 경우에, 상기 특징 추출부에서 추출된 음성 특징을 해당 사용자의 화자 모델과 비교하여 그 유사도를 측정하고, 상기 유사도에 근거하여 화자 인정 여부를 결정하는 화자 검증부를 포함함을 특징으로 한다.

본 발명의 다른 측면에 의한 비고정 연속 숫자음을 이용한 화자 검증 방법은 (a) 비고정 연속 숫자를 랜덤하게 생성하는 단계; (b) 상기 비고정 연속 숫자를 사용자에게 출력하는 단계; (c) 상기 연속 숫자에 대한 사용자의 음성 입력을 수신하는 단계; (d) 상기 수신된 음성 신호의 음성 특징을 추출하는 단계; (e) 상기 추출된 음성 특징을 화자 독립 연속 숫자음 모델과 비교하여 매칭되는 연속 숫자를 추출하고, 상기 (b) 단계에서 출력된 숫자와 동일한지 여부를 판별하는 단계; (f) 상기 (d) 단계에서 추출된 음성 특징을 지정된 화자 모델과 비교하여 그 유사도를 측정하는 단계; 및 (g) 상기 측정된 유사도에 근거하여 화자의 인정 여부를 결정하는 단계를 포함함을 특징으로 한다.

본 발명의 또다른 측면에 의한 화자 검증 시스템에서의 화자 등록 방법은 (a) 다양한 음가를 포함하는 연속 숫자를 사용자에게 출력하는 단계; (b) 상기 연속 숫자에 대한 사용자의 음성 입력을 수신하는 단계; (c) 상기 수신된 음성 신호의 음성 특징을 추출하는 단계; (d) 상기 추출된 음성 특징을 화자 독립 연속 숫자음 모델과 비교하여 매칭되는 연속 숫자를 추출하고, 상기 (a) 단계에서 출력된 숫자와 동일한지 여부를 판별하는 단계; (e) 상기 (c) 단계에서 추출된 음성 특징을 등록된 화자들의 화자 모델과 비교하여 그 유사도를 측정하는 단계; 및 (f) 상기 측정된 유사도에 근거하여 화자의 등록 여부를 결정하는 단계를 포함함을 특징으로 한다.

이하에서 첨부된 도면을 참조하여 본 발명의 구성 및 동작의 바람직한 실시예를 상세히 설명한다.

화자 검증 시스템의 대표적인 응용 분야는 전화망 또는 인터넷을 이용한 신용 카드 조회, 뱅킹 서비스, 전자 상거래 및 특정 장소의 접근을 위한 보안 점검 서비스 등을 포함하며, 본 발명은 이들 응용 분야뿐만 아니라, 사용자의 보안 점검을 사용자의 음성을 이용하여 수행하는 다른 응용 분야에도 적용될 수 있다.

도 1에 도시한 바와 같이, 본 발명의 일 실시예에 따른 화자 검증 시스템은 크게 사용자 인터페이스부(100)와 화자 검증 서버(200)로 구성된다. 사용자 인터페이스부(100)는 특정 서비스에 접근을 요구하는 사용자와 서비스 접근 권한에 대한 보안 점검을 수행하는 서버 간의 인터페이스를 제공한다. 본 발명의 실시예에서는 이러한 인터페이스에서 사용자의 음성 입력이 가장 중요하며, 사용자 인터페이스부(100)는 이러한 음성 입력을 지원하여야 한다. 그외에도 사용자는 키패드 상의 특정 키의 입력 등을 행하는 경우도 있고, 시스템은 음성 또는 문자의 화면 출력 등을 행할 수 있으므로, 사용자 인터페이스부(100)는 키패드, 터치 스크린 등의 입력 수단과 디스플레이, 스피커 등의 출력 수단을 필요에 따라 추가로 구비할 수도 있을 것이다.

도 2는 본 발명의 일 실시예에 따라, 음성 입출력 처리를 중심으로 구성된 도 1에 도시한 화자 검증 서버(200)의 상세 블록도이다.

도 2에 도시한 바와 같이, 화자 검증 서버(200)는 사용자의 입성 입력에서의 음성 특징을 추출하는 특징 추출부(210), 입력된 음성 신호와 시스템에서 요구한 숫자와의 매칭 여부를 판단하는 숫자음 검증부(220), 특징 추출부에서 추출된 음성 특징을 지정된 화자 모델과 비교하여 화자의 인정 여부를 결정하는 화자 검증부(230) 및 비고정 연속 숫자를 생성하는 랜덤 숫자 생성부(240)를 포함한다.

우선 사용자가 서비스 요구를 하면서 자신의 고유 ID를 음성 또는 key로 입력하면 시스템은 사용자의 보안 확인 작업을 수행하게 된다. 경우에 따라서는 사용자가 서비스 요구를 하고, 시스템에서 고유 ID 입력을 요청하면 이에 따라 사용자의 고유 ID를 입력할 수도 있을 것이다. 여기서는 사용자의 고유 ID를 key로 입력하는 경우를 중심으로 설명하고, 사용자의 ID를 음성으로 입력하는 경우에 대하여는 별도로 설명하기로 한다.

랜덤 숫자 생성부(240)는 시스템의 요구에 따라 비고정 연속 숫자열을 생성한다. 비고정 연속 숫자열에서 "연속"의 의미는 예를 들어, 숫자열 "3456"을 "삼사오륙"으로 처리하는 것이 아니라, "삼천사백오십륙"으로 간주한다는 의미이다. 비연속 숫자열의 경우에는 단지 "영(공)", "일", "이", "삼", "사", "오", "륙", "칠", "팔", "구"의 열가지 단위음에 대한 단조로운 단순 반복 발음만이 포함되나, 연속 숫자음의 경우에는 그외에도 "십", "백", "천", "만" 등의 단위음과 이들간의 자음동화음도 함께 고려하여야 하고(단, "영"은 직접 발음되지 않음), 비연속 숫자열에 비하여 음가의 복잡성이 증가하여 음성의 특징을 추출하기가 용이하게 된다. 또한, "비고정"의 의미는 하나의 숫자열이 가지는 자리수가 고정되어 있지 않다는 것을 의미한다. 즉, 한자리의 숫자일 수도 있고, 두자리, 세자리 숫자 등의 임의 자리 숫자일 수도 있다는 의미이다. 이처럼 "비고정", "연속" 숫자열을 사용하여 단순한 숫자열을 사용하면서도 임의성(randomness)를 높일 수 있고, 이로 인하여 음성 변조 또는 음성 도용을 효율적으로 방비할 수 있게 된다. 랜덤 숫자 생성부(240)는 임의 자리의 긴 숫자열을 생성하고, 이를 임의 자리로 잘라서 각 단위마다 음성 검증을 위한 비고정 연속 숫자로 사용될 수 있도록 한다. 예를 들어 "12345678901234567890"의 20 자리 숫자열을 생성한 후, 이를 "123", "4567", "890", "12", "345", "6", "7890"으로 잘라서 각 단위 숫자열을 테스트 단위로 사용할 수 있다. 물론, 매 반복 테스트마다 각 단위의 숫자열만을 랜덤으로 생성할 수도 있다는 것은 본 발명이 속하는 기술 분야에서 숙련된 자에게는 자명할 것이다.

이처럼 랜덤 숫자 생성부(240)에서 생성된 단위 비고정 연속 숫자는 사용자 인터페이스(100)를 통하여 사용자에게 음성 및/또는 화면으로 출력되고, 사용자에게 이에 따라서 음성 입력할 것을 요구한다. 사용자 인터페이스(100)를 통하여 음성 입력된 사용자의 음성은 특징 추출부(210)에 전달된다. 특징 추출부(210)는 입력된 사용자의 음성에서 음성 특징을 추출한다. 이러한 음성으로부터 특징을 추출하는 방법은 예를 들어, LPC 셉트럼 콘투어(Linear Prediction Coding Ceptrum Contour) 등과 같은 방법이 사용될 수 있다. 특징 추출부(210)에서 추출된 다양한 음성 특징은 계속되는 숫자음 검증부(220) 및 화자 검증부(230)에서 사용되게 된다.

숫자음 검증부(220)는 화자 독립 연속 숫자음 모델(222)과 숫자 매칭부(224)를 포함한다. 화자 독립 연속 숫자음 모델(222)이란 개별 화자의 독특한 음성 특징과는 무관하게("화자 독립"), 발성된 음성의 음가 특성으로부터 해당 "연속" 숫자음을 판단할 수 있도록 구성된 음성 정보에 대한 데이타베이스를 말한다. 숫자 매칭부(224)는 특징 추출부(210)에서 추출한 화자의 음성 특징을 화자 독립 연속 숫자음 모델과 비교하여 비고정 연속 숫자음을 매칭시킨다. 만약, 숫자 매칭부(224)에서 매칭된 연속 숫자음과 시스템에서 요구한 숫자와 정확히 일치하지 않을 경우에는 재입력을 요구하게 될 것이고, 반복된 불일치의 경우에는 화자의 서비스 요청이 거부될 수 있을 것이다. 본 발명이 속하는 분야에서 숙련된 자는 이러한 불일치의 경우에 다양한 형태의 보완 과정을 수행할 수 있을 것이다.

숫자음 검증이 완료되면 화자 검증부(230)에서 화자 검증 과정을 수행하며, 화자 검증부(230)는 화자 모델(232), 유사도 측정부(234), 화자 정보(236) 및 제어부(238)을 포함한다. 화자 모델(232)은 광범위한 훈련 데이터로부터 다양한 음가에 대한 다양한 음성 특징을 추출하여 구축된 음성의 음가 정보에 대한 데이타 베이스를 말하며, 화자 정보(236)란 화자 검증 서버(200)에 등록된 개별 사용자의 음성 특징을 화자 모델(232)을 참조하여 구축한 개별 화자에 대한 정보를 말한다. 본 발명이 속하는 분야에서 숙련된 자는 화자 모델(232)과 화자 정보(236)를 별도로 분리하지 않고, 통합하여 구축할 수도 있을 것이다.

유사도 측정부(234)는 특징 추출부(210)에서 추출된 화자의 음성 특징을 지정된 화자 정보를 참조하여 화자 모델과의 유사도를 측정한다. 각 단위 비고정 연속 숫자열에 대하여 반복적으로 수행된 유사도 측정 결과를 참조하여 제어부(238)는 최종적으로 화자의 인정 여부를 결정하게 된다. 만약 인정 결정이 날 경우에는 수집된 데이터를 사용하여 해당 화자 정보를 보완하여 재구성한다. 이러한 갱신 작업을 통하여 더욱 정확한 화자 정보를 유지할 수 있게 된다.

또한, 제어부(238)는 시스템의 전반적인 제어(미도시)를 총괄한다. 예를 들어, 앞에서 설명된 숫자 매칭부(224)에서 숫자의 불일치가 발생한 경우에 제어부(238)의 제어 신호에 따라 후속 절차의 진행이 이루어지게 된다. 그리고 제어부(238)는 유사도의 편차를 이용하여, 레코드 등의 기계에 의한 음성 도용 여부를 판단하는 메카니즘을 제공하며, 이에 대하여는 도 3b를 설명하는 부분에서 자세히 고찰하기로 한다.

이제까지의 설명은 보안 점검의 초기 단계에 사용자의 고유 ID를 key 입력하는 경우를 중심으로 고찰하였으며, 사용자의 고유 ID를 음성으로 입력하는 본 실시예의 변형된 형태에서는 숫자음 검증부(220)는 숫자 매칭부(224)에서 매칭된 숫자열을 제어부(238)의 제어에 따라 사용자 인터페이스(100)를 통하여 사용자에게 출력하여 확인하는 과정을 수행한다. 그리고 화자 검증부(230)는 음성 입력된 사용자의 고유 ID 음성 정보를 단위 비고정 연속 숫자음 정보의 하나로 활용할 수 있게 된다.

본 실시예의 동작 설명은 반복된 비고정 연속 숫자음의 테스트를 중심으로 하고 있으나, 이는 화자의 음성 특징을 판단하기 위하여 필요한 충분한 정보를 얻기 위한 것이며, 이는 단지 1회의 테스트에 의하여 이루어질 수도 있다는 것을 본 발명이 속하는 기술 분야에서 숙련된 자는 이해할 수 있을 것이다.

이제까지 본 발명의 일 실시예에 따른 화자 검증 시스템에 대하여 설명하였으며, 계속해서 본 발명의 또다른 실시예에 따른 화자 검증 방법에 대하여 기술하기로 한다.

특정 서비스의 이용을 원하는 사용자는 자신의 고유 ID를 음성 또는 key 등의 입력 수단을 통하여 시스템에 입력한다(단계 300). 사용자의 고유 ID를 음성으로 입력하는 경우에는 도 2의 화자 검증 시스템을 설명하는 과정에서 설명한 바와 같이, 아래에서 설명될 숫자 매칭 단계(단계 350)에서 매칭된 숫자를 사용자에 출력하여 확인하는 단계를 추가로 포함하여, 이를 비고정 연속 숫자음의 하나로 활용할 수 있을 것이며, 이하에서는 key 등을 이용한 사용자 ID 입력의 경우를 중심으로 설명한다.

사용자의 서비스 요청이 있는 경우 시스템은 보안 점검을 위하여 임의 자리의 긴 숫자열을 생성하고, 이를 임의 자리로 잘라서 단위 비고정 연속 숫자를 생성한다(단계 310). 이러한 단위 비고정 연속 숫자는 각 반복 테스트 단계마다 이용된다. 또한 매 반복 단계마다 단위 비고정 연속 숫자를 생성할 수도 있다는 것은 이미 살펴본 바와 같다.

다음으로, 비고정 연속 숫자를 사용자에게 음성 및/또는 화면으로 출력하여, 사용자에게 이에 따라서 음성 입력할 것을 요구한다(단계 320). 사용자는 출력된 비고정 연속 숫자를 음성을 통하여 따라하게 되고, 이러한 사용자의 발성음이 시스템에 입력된다(단계 330).

사용자의 음성이 입력되면, 시스템은 비고정 연속 숫자음에 대한 사용자의 음성 입력에서 음성 특징을 추출한다(단계 340). 단계 340에서 추출된 화자의 음성 특징은 화자 독립 연속 숫자음 모델과의 비교를 통하여 비고정 연속 숫자음으로 매칭되어, 단계 320에서 출력된 숫자와의 일치 여부가 확인된다(단계 350). 만약 불일치할 경우에는 화자 검증 시스템의 동작 설명 과정에서 기술된 조치들을 취하게 된다.

단계 320에서 요구한 숫자와 화자의 음성 입력이 일치하면, 단계 340에서 추출된 화자의 음성 특징을 지정된 화자 정보를 참조하여 화자 모델과의 유사도를 측정한다(단계 360). 각 단위 비고정 연속 숫자음에 대한 반복적인 유사도의 판단을 위하여 화자 인정 카운트 및 화자 거부 카운트를 두고, 음가 차이에 대한 허용 범위의 최소 임계값(이하 하위 유사도 임계값 또는 TH1이라 간단히 참조함)을 설정한다. 만약, 측정된 유사도가 TH1 미만이면 화자 인정 카운트를 증가시키고, 그 반대이면 화자 거부 카운트를 증가시킨다.

계속해서, 단계 320 내지 단계 360을 단계 310에서 생성된 모든 단위 비고정 연속 숫자열에 대하여 반복한다(단계 370). 물론, 매 반복 단계마다 단위 비고정 연속 숫자를 생성할 수도 있으므로, 단계 310도 포함하여 반복될 수 있다.

단계 360에서 반복적으로 수행된 유사도 측정 결과를 참조하여 최종적으로 화자의 인정 여부를 결정하게 된다(단계 380). 본 실시예는 반복 테스트를 가정하고 있으나, 화자의 음성 특징을 판단하기 위하여 필요한 충분한 정보를 얻을 수 있는 경우에는 단지 1회의 테스트만으로 인정 여부를 결정할 수도 있음은 이미 살펴본 바와 같다.

계속해서, 단계 380에서의 화자 인정 결정 단계의 세부적인 단계에 대하여는 도 3b에서 자세히 고찰한다.

화자의 인정 여부를 결정하기 위하여 단계 360에서 측정된 화자 인정 카운트와 화자 거부 카운트가 사용되며, 또한 화자 거부 카운트에 대한 허용 임계값(이하 거부 카운트 임계값 또는 C1으로 간단히 참조함) 및 음가 차이에 대한 허용 범위의 최대 임계값(이하 상위 유사도 임계값 또는 TH2라 간단히 참조함)이 설정된다. 만약, 화자 거부 카운트가 없다면 곧바로 화자 인정을 하고(단계 381, 단계 389b), 화자 거부 카운트가 C1을 초과하거나, TH2를 초과하는 화자 거부 카운트가 존재하면 화자를 거부한다(단계 382, 단계 384, 단계 389a). 단계 381 내지 단계 383의 실행 순서는 무관하다는 것을 본 발명이 속하는 기술 분야에서 숙련된 자는 이해할 수 있을 것이다.

그리고, 단계 360에서 측정된 유사도 중에서 TH2를 초과하는 화자 거부 카운트는 존재하지 않고, TH1 이상이면서 TH2 이하인 화자 거부 카운트가 존재하지만 상기 거부 카운트 임계값 이하이면, 단계 384 이하의 유사도 편차를 이용하여 레코드 등의 기계에 의한 음성 도용 여부를 판단하는 단계를 수행한다.

단계 384에서는 단계 360에서 반복 측정된 각 유사도의 편차를 구하고, 기계음 유사도로 판단가능한 유사도 편차의 임계값(이하 유사도 편차 임계값 또는 TH3라 간단히 참조함)을 설정한다. 만약, 단계 384에서 계산된 편차가 TH3 이상이면 화자의 인정 결정을 하고(단계 385, 단계 389b), 그렇지 않으면 기계에 의한 음성 도용 여부를 최종 판단하기 위한 단계 386 이하의 최종 반복 검사 단계를 수행한다.

기계에 의한 음성 도용 여부를 최종 판단하기 위하여, 단계 384에서 계산된 편차가 TH3 미만이면 이미 입력된 동일한 비고정 연속 숫자를 반복하게 하여, 이에 따른 화자의 음성 입력을 수신한다(단계 386). 그리고 초기에 처음 입력된 화자의 음성 특징과 동일한 연속 숫자에 대하여 반복 입력된 화자의 음성 특징 간의 패턴 유사도를 측정하고(단계 387), 기계음 유사도로 최종 판단하는 유사도의 임계값(이하 기계음 유사도 또는 TH4라 간단히 참조함)을 설정한다. 만약, 단계 387에서 측정된 유사도가 TH4 미만이면 기계에 반복으로 간주하여 최종적으로 화자를 거부하고, 그렇지 않으면 화자를 최종적으로 인정한다(단계 388, 389a, 389b).

이제까지 여러가지 임계값들(TH1, TH2, TH3, TH4, C1)은 해당 단계에서 설정하는 것처럼 설명되었으나, 이는 설명의 편의를 위한 것이며, 본 발명이 속하는 기술 분야에서 숙련된 자는 이러한 임계값들을 시스템 초기화시에 설정할 수 있다는 것을 이해할 수 있을 것이며, 또한 이러한 임계값 설정은 매번 반복되는 것이 아니라, 1회만 수행된다는 것을 이해할 수 있을 것이다.

마지막, 단계 389에서 화자의 인정 결정을 하게 되면, 수집된 화자의 음성 정보 데이타를 사용하여 해당 화자 정보를 보완하여 재구성한다(단계 390).

이상에서 본 발명의 실시예에 따른 비고정 연속 숫자음을 이용한 화자 검증 방법에 대하여 고찰하였으며, 계속해서 본 발명의 또다른 실시예인 화자 등록 과정에 대하여 설명한다.

특정 서비스의 이용을 원하는 사용자가 최초로 서비스 이용 신청을 하면,시스템은 사용자 등록 과정을 수행한다. 시스템은 사용자의 등록을 위하여 최소의 숫자열로 다양한 음가를 대처할 수 있도록 연속 숫자열을 생성한다(단계 400). 이때 만들어지는 숫자는 화자간 변별력이 높은 음가를 우선하도록 한다. 그리고 생성된 연속 숫자열을 사용자에게 음성 및/또는 화면으로 출력하여, 사용자에게 이에 따라서 음성 입력할 것을 요구한다(단계 410). 사용자는 출력된 연속 숫자를 음성을 통하여 따라하게 되고, 이러한 사용자의 발성음이 시스템에 입력된다(단계 420).

사용자의 음성이 입력되면, 시스템은 사용자의 음성 입력에서 음성 특징을 추출한다(단계 430). 단계 430에서 추출된 화자의 음성 특징은 화자 독립 연속 숫자음 모델과의 비교를 통하여 연속 숫자음으로 매칭되어 단계 410에서 출력된 숫자와의 일치 여부가 확인된다(단계 440). 만약 불일치할 경우에는 화자 검증 방법에서와 유사한 조치들을 취하게 된다.

단계 410에서 요구한 숫자와 화자의 음성 입력이 일치하면, 단계 430에서 추출된 화자의 음성 특징을 화자 정보를 참조하여 등록된 화자들의 화자 모델과 비교하여 유사도를 측정한다(단계 450).

이러한 단계 400 내지 단계 450을 화자의 충분한 모델이 구성될 때까지 반복한다(단계 460). 화자의 충분한 모델이란 다양한 음가가 수집되어 이미 갖고 있는 화자 모델을 통하여 완벽한 화자의 특징을 추정하기에 충분한 양의 화자의 음성 특징들이 입력되어, 음성 입력 과정의 소음 등의 다른 소리에도 불구하고 화자의 특징을 가릴 수 있는 상태를 말한다. 물론 이러한 충분한 화자의 모델은 정교한 시스템을 사용하거나, 특정 응용 분야에서는 단 1회의 음성 입력 과정에 의하여 구축될 수도 있다는 것을 본 발명이 속하는 기술 분야에서 숙련된 자는 이해할 수 있을 것이다. 또한 단계 400을 각 반복 과정에서 매번 수행하지 않고, 처음에 복수개의 숫자열을 생성하고 이를 각 반복 단계에서 사용할 수 있다는 것도 쉽게 이해할 수 있다. 즉, 이 경우에는 단계 410 내지 단계 450이 반복된다.

화자의 충분한 모델이 구성되면 화자의 등록 가능성 여부를 체크하며, 이를 위하여 등록 허용 최소 거리 임계값(이하 TH5라 간단히 참조함)을 설정한다. 즉, 시스템 초기화시에 다양한 화자로부터 음성 특징을 추출하여 만든 화자 모델과의 비교를 통하여, 등록된 화자의 화자 모델과 TH5 이내의 화자로 판별되면 화자 등록을 거부하고(단계 470, 단계 480), 그렇지 않으면 화자 등록을 허용한다. 이러한 TH5는 응용 분야에 따라서, 또는 시스템의 동작 환경에 따라 다양하게 설정될 수 있으며, TH5는 시스템 초기화시에 설정할 수도 있고, 1회만 수행된다는 것은 이미 살펴본 바와 같다.

화자 등록이 허용될 경우에는 해당 화자의 고유 ID를 할당하고, 입력된 화자의 음성 특징을 화자 모델을 참조하여 화자 정보에 등록하고, 이미 등록된 유사한 화자들 집단의 일원으로 등록한다(단계 490).

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 본 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

화자의 음성을 이용하여 화자를 검증하는 시스템에 있어서,

비고정 연속 숫자를 생성하는 랜덤 숫자 생성부;

상기 랜덤 숫자 생성부에서 생성된 비고정 연속 숫자를 사용자에게 출력하고, 출력된 상기 비고정 연속 숫자에 대한 사용자의 음성 입력을 수신하는 사용자 인터페이스부;

상기 사용자 인터페이스부를 통하여 수신된 음성 신호의 음성 특징을 추출하는 특징 추출부;

상기 특징 추출부에서 추출된 음성 특징을 화자 독립 연속 숫자음 모델의 항목들과 비교하여 매칭되는 항목에 대응하는 숫자를 추출하고, 상기 사용자 인터페이스부를 통하여 출력된 숫자와 동일한지 여부를 판별하는 숫자음 검증부; 및

상기 숫자음 검증부에서 동일 판정이 난 경우에, 상기 특징 추출부에서 추출된 음성 특징을 해당 사용자의 화자 모델과 비교하여 그 유사도를 측정하고, 상기 유사도에 근거하여 화자 인정 여부를 결정하는 화자 검증부를 포함함을 특징으로 하는 비고정 연속 숫자음을 이용한 화자 검증 시스템.
제 1항에 있어서, 상기 화자 검증부는,

상기 숫자음 검증부에서 동일 판정이 난 경우에, 상기 특징 추출부에서 추출된 음성 특징을 지정된 화자 모델과 비교하여 그 유사도를 측정하는 유사도 측정부; 및

상기 유사도 측정부에서 측정된 유사도에 근거하여 화자 인정 여부를 결정하고, 인정 결정의 경우에는 상기 특징 추출부에서 추출된 특징을 사용하여 해당 화자 정보를 보완하여 재구성하는 제어부를 포함함을 특징으로 하는 비고정 연속 숫자음을 이용한 화자 검증 시스템.
제 1항에 있어서, 상기 화자 검증부는,

상기 숫자음 검증부에서 동일 판정이 난 경우에, 상기 특징 추출부에서 추출된 음성 특징을 지정된 화자 모델과 비교하여 그 유사도를 측정하는 유사도 측정부; 및

상기 유사도 측정부에서 측정된 유사도에 근거하여 화자 인정 여부를 결정함에 있어서 유사도의 편차를 이용하여 음성 도용 여부를 아울러 판별하는 제어부를 포함함을 특징으로 하는 비고정 연속 숫자음을 이용한 화자 검증 시스템.
화자의 음성을 이용하여 화자를 검증하는 방법에 있어서,

(a) 비고정 연속 숫자를 랜덤하게 생성하는 단계;

(b) 상기 비고정 연속 숫자를 사용자에게 출력하는 단계;

(c) 상기 연속 숫자에 대한 사용자의 음성 입력을 수신하는 단계;

(d) 상기 수신된 음성 신호의 음성 특징을 추출하는 단계;

(e) 상기 추출된 음성 특징을 화자 독립 연속 숫자음 모델과 비교하여 매칭되는 연속 숫자를 추출하고, 상기 (b) 단계에서 출력된 숫자와 동일한지 여부를 판별하는 단계;

(f) 상기 (d) 단계에서 추출된 음성 특징을 지정된 화자 모델과 비교하여 그 유사도를 측정하는 단계; 및

(g) 상기 측정된 유사도에 근거하여 화자의 인정 여부를 결정하는 단계를 포함함을 특징으로 하는 비고정 연속 숫자음을 이용한 화자 검증 방법.
제 4항에 있어서,

상기 (b) 단계 내지 (f) 단계는 복수번 반복함을 특징으로 하는 비고정 연속 숫자음을 이용한 화자 검증 방법.
제 4항 또는 제 5항에 있어서, 상기 (g) 단계는,

화자를 인정하는 경우에는 상기 (d) 단계에서 추출된 음성 특징을 사용하여 해당 화자 정보를 보완하여 재구성하는 단계를 더 포함함을 특징으로 하는 비고정 연속 숫자음을 이용한 화자 검증 방법.
제 5항에 있어서,

상기 (f) 단계는 측정된 유사도가 소정의 하위 유사도 임계값 미만이면 화자 인정 카운트를 증가시키고, 상기 하위 유사도 임계값 이상이면 화자 거부 카운트를 증가시키는 단계를 더 포함하고,

상기 (g) 단계는,

(g1) 화자 거부 카운트가 0이면 화자를 인정하는 단계;

(g2) 상기 (f) 단계에서 측정된 유사도 중에서 소정의 상위 유사도 임계값을 초과하는 화자 거부 카운트가 존재하면 화자를 거부하는 단계;

(g3) 상기 (f) 단계에서 측정된 유사도 중에서 상기 하위 임계값 이상이면서 상기 상위 임계값 이하인 화자 거부 카운트가 소정의 거부 카운트 임계값을 초과하면 화자를 거부하는 단계; 및

(g4) 상기 (f) 단계에서 측정된 유사도 중에서 상기 상위 유사도 임계값을 초과하는 화자 거부 카운트는 존재하지 않고, 상기 하위 유사도 임계값 이상이면서 상기 상위 유사도 임계값 이하인 화자 거부 카운트가 존재하지만 상기 거부 카운트 임계값 이하이면, 상기 (f) 단계에서 측정된 각 유사도의 편차에 근거하여 화자의 인정 여부를 결정하는 단계를 포함함을 특징으로 하는 비고정 연속 숫자음을 이용한 화자 검증 방법.
제 7항에 있어서, 상기 (g1) 단계는,

상기 (d) 단계에서 추출된 음성 특징을 사용하여 해당 화자 정보를 보완하여 재구성하는 단계를 더 포함함을 특징으로 하는 비고정 연속 숫자음을 이용한 화자 검증 방법.
제 7항에 있어서, 상기 (g4) 단계는,

(g41) 상기 (f) 단계에서 측정된 유사도 중에서 상기 상위 유사도 임계값을 초과하는 화자 거부 카운트는 존재하지 않고, 상기 하위 유사도 임계값 이상이면서 상기 상위 유사도 임계값 이하인 화자 거부 카운트가 존재하지만 상기 거부 카운트 임계값 이하이면, 상기 (f) 단계에서 측정된 각 유사도의 편차를 구하는 단계; 및

(g42) 상기 유사도의 편차가 소정의 유사도 편차 임계값 이상이면 화자를 인정하고, 상기 유사도의 편차가 상기 유사도 편차 임계값 미만이면 음성 도용 여부를 확인하여 화자의 인정 여부를 결정하는 단계를 포함함을 특징으로 하는 비고정 연속 숫자음을 이용한 화자 검증 방법.
제 9항에 있어서, 상기 (g42) 단계는,

(g421) 상기 유사도의 편차가 상기 유사도 편차 임계값 이상이면 화자를 인정하고, 상기 유사도의 편차가 상기 유사도 편차 임계값 미만이면 이미 입력된 동일한 비고정 연속 숫자를 반복하게 하여, 이에 따른 화자의 음성 입력을 수신하는 단계;

(g422) 처음에 입력된 화자의 음성 특징과 상기 (g421) 단계에서 동일한 연속 숫자에 대하여 반복 입력된 화자의 음성 특징의 유사도를 측정하는 단계; 및

(g423) 상기 (g422) 단계에서 측정된 유사도가 소정의 기계음 유사도 임계값 미만이면 음성 도용으로 판단하여 화자를 거부하고, 상기 기계음 유사도 임계값 이상이면 화자를 인정하는 단계를 포함함을 특징으로 하는 비고정 연속 숫자음을 이용한 화자 검증 방법.
제 10 항에 있어서, 상기 (g423) 단계는,

화자를 인정하는 경우에는 상기 (d) 단계에서 추출된 음성 특징을 사용하여 해당 화자 정보를 보완하여 재구성하는 단계를 더 포함함을 특징으로 하는 비고정 연속 숫자음을 이용한 화자 검증 방법.
화자 검증 시스템에서의 화자를 등록하는 방법에 있어서,

(a) 다양한 음가를 포함하는 연속 숫자를 사용자에게 출력하는 단계;

(b) 상기 연속 숫자에 대한 사용자의 음성 입력을 수신하는 단계;

(c) 상기 수신된 음성 신호의 음성 특징을 추출하는 단계;

(d) 상기 추출된 음성 특징을 화자 독립 연속 숫자음 모델과 비교하여 매칭되는 연속 숫자를 추출하고, 상기 (a) 단계에서 출력된 숫자와 동일한지 여부를 판별하는 단계;

(e) 상기 (c) 단계에서 추출된 음성 특징을 등록된 화자들의 화자 모델과 비교하여 그 유사도를 측정하는 단계; 및

(f) 상기 측정된 유사도에 근거하여 화자의 등록 여부를 결정하는 단계를 포함함을 특징으로 하는 화자 등록 방법.
제 12항에 있어서,

상기 (a) 단계 내지 상기(e) 단계는 화자의 충분한 모델이 구성될 때까지 반복함을 특징으로 하는 화자 등록 방법.