KR20040068548A

KR20040068548A - 행동 모델을 사용한 비-개입적 화자 인증 방법 및 시스템

Info

Publication number: KR20040068548A
Application number: KR10-2004-7007200A
Authority: KR
Inventors: 라마스와미가네쉬엔; 차우드헤리우펜드라브이
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2001-12-12
Filing date: 2001-12-12
Publication date: 2004-07-31
Also published as: AU2002230762A1; JP2005512246A; CN1213398C; CN1522431A; AU2002230762A8; EP1470549A4; EP1470549B1; EP1470549A1; JP4143541B2

Abstract

본 발명에 의하면, 사용자의 신원을 확인하기 위한 시스템 및 방법은 사용자(110)로부터 입력을 수신하고, 그 입력을 형식적인 명령으로 변환하기 위한 대화형 시스템(114)을 포함한다. 행동 인증기(118)는 이 입력으로부터 특징을 추출하기 위해 대화형 시스템에 결합한다. 이 특징은 사용자의 행동 패턴을 포함한다. 이 행동 인증기(118)는, 사용자가 시스템과 상호작용을 하도록 허가된 자인지 여부를 결정하기 위해, 이 입력 행동을 행동 모델(214)와 비교하기 위한 것이다.

Description

행동 모델을 사용한 비-개입적 화자 인증 방법 및 시스템{METHOD AND SYSTEM FOR NON-INTRUSIVE SPEAKER VERIFICATION USING BEHAVIOR MODELS}

화자 인증(speaker verification, 또는 화자 검증)을 위한 전통적인 방법은 인증만을 목적으로 하는 사용자의 특정한 입력에 의존하는 것이다. 이러한 방법은 언어 샘플을 제공하는 단계와 생체 인증 질문에 답하는 단계를 포함한다. 일단 인증이 되면, 화자는 목표 시스템에 접근이 허용되며, 일반적으로 더 이상의 인증은 수행되지 않는다. 부가적인 인증이 수행된다고 하더라도, 인증을 위한 더 특정한 사용자의 입력을 요구하는 것이다. 이것은 사용자를 방해한다.

종래 기술의 화자 인증 시스템(또는 음성 입력 양식이 없는 사용자 인증 시스템)은, 다음의 하나 또는 이상의 기준을 기초로 주어진 사용자의 신원을 유효화한다.

1. 사용자는 누구인가(이것은 사용자의 음성, 지문, 필체 등으로 판단될 수 있음)

2. 사용자가 알고 있는 것은 무엇인가(이것은 패스워드 또는 소정의 생체적인 질문에 대한 답변에 의해 판단됨)

3. 사용자가 소유하고 있는 것은 무엇인가(예컨대, 식별 문서, 열쇠, 특정한 번호의 셀룰러 폰 등)

인증을 위한 상기 모든 방법들은, 만약 침입자가 열쇠 또는 결혼 전 이름(maiden name) 등과 같은 정보를 알고 있거나 소유하게 된다면, 효력이 없을 수도 있다.

그러므로, 사용자 행동에 기반한 사용자 신원 판단용 방법 및 시스템의 존재가 요구되는 것이다.

본 발명은 자연어 이해 시스템에 관한 것이고, 특히 사용자의 행동에 기반하여 사용자를 비-개입적으로(non-intrusively) 인증하기 위한 방법 및 시스템에 관한 것이다.

본 발명은 다음의 도면을 참조하여 아래에서 바람직한 실시예의 설명으로 기술될 것이다.

도 1은 본 발명에 따라서, 행동 인증을 채용하는 예시적인 시스템/방법의 블럭/흐름 다이어그램이다.

도 2는 본 발명에 따라서, 예시적인 행동 인증을 설명하는 블럭 다이어그램이다.

본 발명에 의하면, 사용자 신원을 인증하기 위한 시스템은 사용자로부터 입력을 수신하는 단계와 그 입력을 형식적인 명령(formal command)으로 변환하는 단계를 위한 대화형 시스템을 포함한다. 행동 인증기는 이 입력으로부터 특징을 추출하기 위해 대화형 시스템에 결합한다. 그 특징은 사용자의 행동 패턴을 포함한다. 행동 인증기는 사용자가 그 시스템에 접근이 허용되는지 여부를 결정하기 위해, 이 입력 행동을 행동 모델과 비교하기 위한 것이다.

다른 실시예에 있어서, 대화형 시스템은 이 입력으로써 수신되는 음성을 번역하기 위한 자연 언어 이해 유닛을 포함할 수 있다. 입력은 음성(speech), 필체(handwriting), 텍스트(text)와 제스처 중 적어도 하나를 포함할 수 있다. 행동 인증기는 이 입력으로부터 특징 벡터를 추출하기 위한 특징 추출기를 포함할 수있다. 특징 벡터는 언어 모델 스코어(language model score), 음향 모델 스코어(acoustic model score), 자연 언어 및 이행 스코어(natural language and understanding score), 명령 예측 스코어(command predication score) 및/또는 발음 스코어(pronunciation score) 중 적어도 하나를 포함할 수 있다. 이 특징 벡터는 사용자에 응답하는 시스템에 관한 정보, 사용자 명령과 이 사용자 및 시스템 사이의 대화 상태 사이의 지속 시간, 및/또는 사용자에 의해 채용되는 입력 양식 중 어느 하나를 포함할 수 있다. 행동 모델은 복수의 모델을 포함할 수 있다. 행동 인증기는 확률 계산기(probability calculator)를 포함할 수 있다. 확률 계산기는, 사용자가 사용자의 행동에 기반한 시스템과 상호작용을 하기 위해 허가되는 제1 확률을 계산하기 위한 것이다. 행동 인증기는, 사용자에 대한 행동 모델을 구축하기 위한 모델 구축기(model constructor)를 포함할 수 있는데, 이 모델 구축기는 행동을 사용자의 현재 행동과 비교하기 위한 확률 계산기에 의해 채용된다. 이 시스템은, 사용자로부터 음향 및 생체 정보를 판단하고, 사용자가 사용자의 음향 또는 생체 정보에 기초하여 이 시스템과 상호작용을 하도록 허가되는 제2 확률을 판단하기 위한, 음향 및 생체 인증기(acoustic and biometric verifier)를 더 포함할 수 있으며, 이 행동 인증기는, 이 사용자가 시스템과 상호작용하도록 허가되는 것을 인증하는 상기 제2 확률과 상기 제1 확률을 통합하기 위한 확률 혼합기(probability mixer)를 포함할 수 있다.

본 발명에 의하면, 행동에 기반하여 사용자를 인증하는 방법은 사용자로부터 입력을 수신하고 이 입력을 형식적인 명령으로 변환하기 위한 대화형 시스템에 입력을 제공하는 단계, 사용자의 행동 패턴을 포함하는 특징을 입력으로부터 추출하는 단계와, 이 사용자가 시스템과 상호작용을 하도록 허가되는지 여부를 판단하기 위해, 이 입력 행동을 행동 모델과 비교하는 단계를 포함한다.

다른 방법에 있어서, 대화형 시스템은 자연어 이해 유닛을 포함할 수 있으며, 이 방법은 입력으로써 수신되는 음성(speech)을 해석하는 단계를 더 포함할 수 있다. 이 입력은 음성, 필체, 텍스트와 제스처 중 적어도 하나를 포함할 수 있다. 특징 벡터는 언어 모델 스코어, 음향 모델 스코어, 자연 언어 및 이해 스코어, 명령 서술 스코어 및/또는 발음 스코어 중 적어도 하나를 포함할 수 있다. 특징 벡터는 사용자에 응답하는 시스템에 관한 정보, 사용자 명령과 그 사용자와 시스템 사이의 대화 상태 사이의 지속시간, 및/또는 이 사용자에 의해 채용되는 입력 양식의 종류 중 적어도 하나를 포함한다. 행동 인증기는 확률 계산기를 포함할 수 있으며, 본 방법은 이 확률 계산기로 제1 확률을 계산하는 단계를 포함할 수 있다(이 제1 확률은, 사용자의 행동에 기반하여, 사용자가 시스템과 상호작용하도록 허가되는지 여부를 지시하는 것임).

다른 방법에 있어서, 행동 인증기는 모델 구축기를 포함할 수 있으며, 이 방법은 사용자에 대한 행동 모델(이 행동 모델이란 행동을 사용자의 현재 행동과 비교하도록 확률 계산기에 의해 채용되는 것임)을 구축하는 단계를 포함할 수 있다. 음향 및 생체 인증기가, 사용자로부터의 음향 및 생체 정보를 판단하도록 포함될 수 있으며, 이 방법은, 사용자의 음향 또는 생체 정보에 기반하여 사용자가 시스템과 상호작용하도록 허가되는지 여부를 지시하기 위한 제2 확률을 판단하는 단계와,사용자가 시스템과 상호작용을 하도록 허가되는지를 인증하기 위해 확률 혼합기를 사용하여 제1 확률을 이 제2 확률과 통합하는 단계를 더 포함할 수 있다. 제1 확률은 사용자가 이 시스템을 사용하도록 허가되는지 여부를 판단하기 위해 문턱 확률(threshold probability)과 비교될 수 있다. 본 발명의 방법들과 단계들은 행동에 기반하여 사용자를 인증하기 위한 방법 단계를 수행하기 위한 장치에 의해 수행되는 프로그램 명령을 실체적으로 구체화하여, 장치에 의해 판독 가능한 프로그램 저장 장치에 의해 구현될 수 있다. 본 발명의 이러한 그리고 다른 객체, 특징 및 장점이 다음에서 구체화되는 명세서의 실시예에 의해 더 명백해 질 것이며, 첨부된 도면과 결합되어 더 잘 이해될 수 있을 것이다.

본 발명은 사용자가 목표 시스템과 상호작용을 하는 방법에 기반하여, 사용자의 신원을 연속적으로 인증하기 위한 방법 및 시스템을 제공한다. 이것은 사용자의 현재의 행동을 과거의 행동과 비교함으로써 수행된다. 사용자로부터의 어떠한부가적인 전용(dedicated) 입력(초기 인증을 위해 사용된 것을 넘어서)도 필요하지 않으므로, 시스템은 비-개입적이다(non-intrusive). 더 나아가, 인증은 연속적으로 행해지며, 만약 충분한 증거가 세션 중에 사용자를 거부하기에 유효하다면, 사용자는 더 이상의 손상이 이루어지기 전에 컷-오프(cut-off)된다.

다른 실시예에 있어서, 초기 인증조차도 필요하지 않으며, 모든 사용자들은 기본 레벨 접속이 주어질 수 있고(예컨대, 기밀 아닌 정보에), 비-개입적인(non-intrusive) 과정을 통한 부가적인 인증으로, 완전한 접속이 부여될 수 있다.

본 발명에 있어서, 새로운 기준을 소개함으로써, 화자(또는 사용자) 인증 패러다임의 새로운 차원이 제공된다 : 사용자가 어떻게 행동하는가. 예컨대, 보통 "Howdy"라고 인사하는 사용자는, "Hello" 또는 "How are you"이라고 인사하는 침입자 또는 어떠한 인사도 없이 대화를 시작하는 침입자로부터 구별될 수 있다. 유사하게는, 기밀 문서를 검색하려는 침입자는 그러한 검색을 일반적으로 수행하지 않는 정당한 사용자와는 구별될 수 있다. 이 시스템과의 하나의 단일한 상호작용만으로는 충분하지 않겠지만, 사용자-시스템간의 몇 개의 상호작용 후에 모아진 정보는 유효한 인증 판단을 하기에 충분하다.

본 발명의 장점 중의 하나는, 인증만을 목적으로, 사용자로부터의 어떠한 부가적인 전용 입력도 기대하지 않는다는 관점에서, 화자 인증이 비-개입적이며(non-intrusive), 사용자는 백그라운드 프로세스(background process)에 의해 자동적으로 수집된 인증용 정보를 가지고, 보통 때처럼 시스템과 상호작용을 할 수 있다. 사용자의 현재 행동을 알고 있는 과거의 행동과 비교하는 것은, 사용자로의 어떠한개입(intrusion) 또는 불편 없이 시스템에 의해 자동적으로 완수된다.

도 1 내지 2에서 보여지는 요소는 다양한 형태의 하드웨어, 소프트웨어 또는 그 조합으로 구현될 수 있음을 이해해야 한다. 바람직하게는, 이러한 요소는 프로세서, 메모리 및 입력/출력 인터페이스를 구비한 하나 또는 이상의 프로그램화된 일반 목적의 디지털 컴퓨터 상의 소프트웨어로 구현된다. 번호들이 동일 또는 유사한 요소를 나타내고 있는 도면을 참조하면, 도 1은 행동 인증을 실행하는 예시적인 시스템/방법을 본 발명에 따라 도시하고 있다. 화자 인증을 필요로 하는 목표 시스템(100)은, 바람직하게는 어떻게 사용자(100)가 시스템과 상호작용을 하는지에 관한 일정한 파라미터를 제공할 수 있다. 예컨대, 시스템(100)은 사용자(110)가 타이핑된 텍스트(typed text), 음성 발음, 수기 입력(handwritten input), 제스처 등과 같은 여러 가지 다른 입력 양식을 사용하는 시스템과 상호작용을 할 수 있도록 허용할 수 있다. 음성(speech) 인증, 필체 인증 및 이미지 인증과 같은 기술은, 자연어 이해 및 대화 관리와 함께, 사용자 입력을 해석하고, 시스템(100)의 컴퓨터 또는 컴퓨터들에 의해 실행되기에 적합한 형태로 번역되도록 시스템(100)에 의해 사용될 수 있다. 시스템(100)은 전자 메일, 전자 캘린더, 뱅킹, 스톡 또는 뮤츄얼 펀드 트레이딩, 여행 서비스, 스프레드쉬트, 편집 프로그램 등과 같은 다수의 상이한 어플리케이션(116)에 접속될 수 있으며, 사용자로 하여금 이러한 어플리케이션과 상호작용을 할 수 있도록 한다. 시스템(100)은 또한 음성(speech) 인증 또는 자연어 이해와 관련된 파라미터 같이, 어떻게 사용자가 시스템과 상호작용을 하는지 설명하는데 필요한 파라미터를 제공할 수 있다.

도 1에 도시된 바와 같이, 시스템(100)의 예는 행동 인증기(118)를 포함하도록 설명된다. 사용자(110)로부터의 입력은 음성 발음으로 기대되지만, 이것은 필체 입력, 타이핑된 텍스트, 또는 제스처와 같은 다른 양식이 될 수도 있다. 음성 입력이 사용되는 경우, 대화형 시스템(114)은 우선, 음성 발음을 종래 기술에서 공지된 인증 엔진(113)을 사용하여 텍스트로 변환한다. 예컨대, 만약 어플리케이션(116)이 전자 메일 어플리케이션이라면, 사용자는 "do I have any new message(새로운 메세지가 있습니까),"라고 말할 수도 있으며, 음성 발음은 음성 인증 엔진에 의해 대응하는 텍스트 스트링으로 변환된다. 필체 입력과 같이 음성 형식이 아닌 입력은, 또한 종래 기술에 의해 공지된 필체 인증 엔진(117)과 같은 적합한 기술을 사용하여 대응하는 텍스트 스트링으로 변환된다. 이것은 제스처 또는 다른 양식의 번역용으로는 정확하다. 하나의 적합한 인증 엔진이 채용된다. 이러한 방법으로, 모든 입력은 시스템(100)이 이해할 수 있는 인증 가능한 형태로 변환된다.

텍스트 스트링 또는 다른 포맷의 신호는 그 뒤, 어플리케이션(116) 내에서 시스템(100)에 의해 실행되기에 적합한 형식적인 명령으로 변환하는 자연어 이해(Natural Language Understanding) 엔진(115)에 의해 분석된다. 예컨대, "do I have any new message(새로운 메세지가 있습니까)" 또는 "can you check my mailbox(저의 메일박스를 체크해주시겠습니까)" (양쪽 모두 동일한 의미를 전달함)와 같은 문장은 다음 형태의 형식적인 명령으로 번역된다 : checkNewMail(). 형식적인 명령은 그 뒤 그 명령의 실행을 위해 어플리케이션(116)에 전달된다. 대화 엔진(120) 또는 대화 관리자는 또한, 사용자와의 대화를 관리하고, 모호성해결(ambiguity resolution)과 같은 어떤 다른 함수를 수행하도록 사용된다.

그러므로, 대화형 시스템은 음성 및 다른 입력 인식 엔진, 자연어 이해(NLU) 엔진(115), 및 대화 엔진(120)을 포함할 수 있다. 대화형 시스템을 구축하기 위한 방법이 종래 기술에 의해 알려져 있다.

음향 및 생체 인증기(112)가 시스템(100) 내에 포함된다. 음향 및 생체 인증기(112)는 사용자(110)의 신원을 식별하고 인증하는 것을 책임진다. 인증은 사용자(110)가 시스템(100)에 접속하도록 하기 전에 정상적으로 수행된다. 인증 단계는 승인을 구하는 사용자의 알려진 음향 서명(acoustic signature)에, 주어진 사용자로 승인을 구하는 사람의 음향 서명을 매치시키는 단계를 포함하며, 이것이 음향 인증 단계이다. 인증 단계는 또한 생체 인증을 포함할 수 있는데, 이로 인해 사용자로 승인을 구하는 사람은, 패스워드, 어머니의 처녀 시절 이름, 주민등록번호 (social security number) 등의 특정한 질문에 신속하게 답해야 한다. 음향 및 생체 인증 방법은 종래 기술로 잘 알려져 있다.

본 발명에 따르면, 행동 인증기(118)는 사용시간 동안 연속적으로 사용자의 신원을 인증하는 부가적인 수행을 책임진다. 구체적인 행동 인증기의 상세는 아래에서 도 2를 참조하여 기술된다. 행동 인증기(118)는 대화형 시스템(114)과 음향 및 생체 인증기(112) 양쪽으로부터 입력을 수신하고, 그 출력을 음향 및 생체 인증기(112)에 제공한다.

도 2를 참조하여, 특징 추출기(204)는 대화형 시스템(114)에 의해 제공되는 데이터로부터 하나의 세트의 특징을 추출하고, n 개의 특징을 포함하는 특징 벡터v를 구축하는 것을 책임진다.

v = [v₁.....v₂] (1)

n 값은 시스템 설계자에 의해 정해지고, 이는 그 시스템에 필요한 정확도의 종류 및/또는 인증의 종류에 의존한다. 특징 추출기(204)에 의해 추출된 특징 v₁,...v_n는 하나 또는 이상의 다음의 특징 도는 다른 유사한 특징을 포함할 수 있다. 다음의 특징 리스트는 예시적이며, 본 발명을 제한하도록 구축된 것이 아니다. 더 나아가, 여기서 기술된 특징은 본 발명에 따라 적합한 특징 벡터를 결정하도록 혼자 또는 다른 특징들과 조합되어 사용될 수 있다. 특징들은 다음의 하나 또는 이상을 포함할 수 있다 :

1) 언어 모델 스코어(Language model score) : 음성 인증 엔진은 인증을 수행하기 위해 언어 모델 또는 하나의 세트의 언어 모델을 사용한다. 하나 이상의 언어 모델이 사용되는 경우, 그 모델들의 일부는 주어진 사용자에 개인적인 전유가 될 수 있다(주어진 사용자에 의해 자주 사용되는 단어나 문장을 사용하여 구축된 개인적인 캐시로서 알려짐). 언어 모델 스코어는 내부적으로 생성되고 사용되어, 인증이 완료되는 경우 버려진다. 그러나, 이러한 스코어는 특히 자주 사용되는 단어 및 문자의 선택과 관련하여, 사용자를 특징짓게 할 수 있는 정보를 수반한다. 예컨대, 만약 사용자가 보통 "begin dictation(받아쓰겠습니다)"이라고 말한다면, "let us create the text for this message(이 메세지에 대한 문장을 만들도록 해주세요)"라고 말하는 침입자가 검출된다. 유사하게, 보통 간단하고 포인트만을 짚는 문장을 사용하여 명령을 하는 사용자는 긴 문장을 사용하는 침입자와는 구별될 수 있다. 그러므로, 언어 모델 스코어는, 특징 벡터 내에 저장되고, 특징들로써 통합된다. 단독 문장 또는 문장들에 기초하여 침입자가 거부될 필요는 없다는 것을 이해해야 한다. 축적된 행동 스코어가 주어진 사용자의 세션동안 유지될 수 있으며, 이 사용자가 침입자 또는 시스템을 사용하도록 인증되는 않는 자인지 여부를 판단하기 위해 문턱(threshold)에 대해 주기적으로 체크될 수 있다.

2) 음향 모델 스코어 : 음향 모델 스코어(때때로, 빠른 매치 스코어와 상세한 매치 스코어로 알려짐) 및 다른 중간물(intermediate) 출력이 음성 인증 엔진 내에서 내부적으로 사용되며, 그 인증 후에 버려진다. 언어 모델 스코어에 유사하게, 음향 모델 스코어는 또한 사용자를 특징짓기에 적절한 정보를 포함하며, 주어진 작업에 대한 스코어의 정상 범위로부터의 임의의 편차가 검출될 수도 있고 침입자를 식별하도록 사용될 수도 있다. 그러므로, 음향 모델을 특징 벡터에 부가하는 것은 유용하다.

3) 자연어 이해(NLU) 스코어 : NLU 엔진은 또한 텍스트로부터 형식적인 명령어로의 변역 후에 버려지는 내부 스코어를 생성한다. 이러한 스코어는 또한 사용자를 특징짓는데 유용할 수 있는 정보를 포함한다. NLU 엔진은 보통 2개 또는 이상의 단계[태깅(tagging) 단계와 번역 단계와 같은]를 포함하는데, 이러한 모든 이러한 스코어는 특징 벡터에 더해지고, 주어진 작업에 대한 스코어의 정상 범위로부터의 임의의 편차가 검출될 수 있다.

이러한 스코어에 추가하여, 형식적인 명령의 제2 선택 또는 태깅의 중간 단계로부터의 태그된(tagged) 문장의 제2 선택이 또한 특징으로써 인코드된다. 예컨대, 사용자가 "Open Steve(스티브를 열것)"라고 말할 수 있으며, 이는 스티브로부터의 메세지를 여는 것에 대응하는 탑-랭킹의 형식적 명령 OpenMessage(name=steve)와 스티브(steve)라고 불리는 폴더를 여는 것에 대응하는 제2 선택 형식적 명령 OpenFolder(folder=steve)가 될 수도 있는 것이다. 그러나, 침입자는 더 확실하게, "Open the message from Steve(스티브로부터의 메세지를 열것)"와 같이 말할 수 있고, 이 경우 제1 선택 형식적 명령은 거의 동일하지만, 제2 선택 명령은 다를 수 있다.

4) 명령 예측 스코어(Command prediction score) : 사용자는 종종 사용자가 발행하는 명령 시퀀스 내의 패턴과 작업을 완료하는데 종종 사용되는 명령들의 조합 내의 패턴을 공개한다. 여기서 참조로써 통합되는 1999년 10월 30일에 출원된 G.Ramaswamy와 J.Kleindienst의 "자연어 대화 시스템을 위한 적합 명령 예측(Adaptive Command Predictor for a Natural Language Dialog System"이라는 명칭의 미국 특허 출원 제 09/431,034에 기술된 것과 같이, 과거의 행동에 기반하여 사용자의 다음 명령을 예측하는 시스템이 대화형 시스템의 정확도를 향상시키도록 사용될 수 있으며, 그 시스템은 주도권을 잡아, 사용자에게 다음 명령을 제안하게 된다. 그러나, 이러한 어플리케이션에 더하여, 명령 예측 시스템에 의해 생성되는 스코어는 또한 침입자를 검출하는데 유용하다. 만약 한 사람이 실제적인 사용자에 의해 사용된 적이 없는 명령을 발행하거나, 그 사람이 탑 랭킹 예측 명령의 부분(다시 그 명령 예측 스코어는 low가 됨)이 아닌 명령 시리즈를 발행한다면, 보통명령 또는 명령의 시퀀스는 침입자의 존재를 지시할 수도 있다. 그러므로, 명령 예측 스코어는 특징 벡터에 더해지는 양호한 특징이다.

5) 발음 모델(Pronunciation Model) : 대부분의 언어에 있어서, 하나 이상의 발음을 갖는 어떤 단어가 존재한다. 예컨대, 영어로, "the"는 다음의 일반적인 발음을 갖는다.

the |DH AH

the |DH AX

the |DH IY

대부분의 사용자들은 종종 이 단어에 대해 오직 하나의 발음만을 사용한다. 임의의 단어에 대한 사용자의 바람직한 발음을 모르는 침입자는 다른 발음을 사용할 수 있다. 이러한 경우 침입자를 검출하기 위해, 특징 벡터는 이러한 단어에 대해 사용된 발음을 인코드한 한 세트의 특징을 포함한다.

6) 다른 입력 스코어 : 만약 시스템이 필체 인증 또는 이미지 인증과 같은 다른 입력 양식을 지원한다면, 이 인증 엔진으로부터의 스코어는 또한, 음성 인증으로부터의 언어 모델 및 음향 모델 스코어와 유사하게, 그 특징 벡터에 부가될 수 있다.

7) 시스템 응답(System response) : 대화형 시스템은 사용자로부터 음성 입력을 받아들일 뿐만 아니라, 사용자와 함께 한 대와를 유지하고, 그 사용자에게 보내지는 응답을 생성한다. 본 발명의 시스템은, 시스템이 사용자를 위해 어떠한 응답을 일반적으로 생성하는지를 주목하고, 침입자를 검출하기 위해 그 정보를 사용한다. "I could not find that message(나는 그 메세지를 찾을 수 없었습니다)", "there is no such meeting(그러한 미팅은 없습니다)" 또는 "you do not own any shares in that mutual fund(당신은 뮤추얼 펀드에 어떠한 공유 재산도 없습니다)"와 같은 응답은 사용자가 시스템과의 이전 상호작용에 대한 지식이 없으며, 잠재적으로 침입자일 수 있음을 의미할 수 있다. 유사하게, 일부 사용자들은 매우 확실하고, "send this to Steve Jones(이것을 스티브 존스에게 보내주세요)", 와 같은 명령을 발행할 수 있으며, 이는 추가적인 분류를 요구하지 않을 수 도 있지만, 다른 사용자는 불확실하여, "send this to Steve(이것을 스티브에게 보내주세요)"와 같은 명령을 발행하는데, 이는 명확화를 위한 추가적인 대화를 요구할 수도 있다. 시스템은 사용자로 하여금 "do you mean Steve Jones or Steve Brown?(스티브 존스 말입니까 아니면 스티브 브라운 말입니까?"의 형태의 질문을 촉구할 수도 있다. 이 경우에 있어서, 실제 사용자보다 더 정확하거나 또는 더 불분명한 침입자가 검출될 수 있다.

특징 벡터 내의 특징으로서 시스템 응답을 사용하여, 이 표준 시스템 응답은 상이한 카테고리(부정적 응답, 긍정적 응답, 확인, 분류 등) 내에 놓여질 수 있으며, 이 카테고리의 식별은, 응답이 생성되는 경우에 하나의 특징으로써 입력된다.

8) 다중-양식 상호작용 모델(Multi-modal interaction model) : 다중-양식 입력(음성, 키보드, 마우스, 필체, 제스처 등)을 지원하는 시스템에 대하여, 사용자가 일반적으로 사용하는 입력 양식의 조합이, 작업을 완수하고, 동일한 작업을 위한 상이한 입력 양식 세트를 사용하려는 침입자를 검출하기 위해, 본 발명에 따라서 분석될 수도 있다. 예컨대, 일부 사용자들은 다른 사용자들이 이 작업을 위해 음성 명령을 사용하길 선호하는 반면에, 파일을 저장하기보다는 "저장" 버튼을 클릭하길 선호할 수 있다. 그러므로, 특징 벡터 내의 추가적인 특징으로서 어떤 작업을 완수하는데 사용되는 입력 양식을 부가하는 것이 유용하다.

9) 대화 상태(Dialog state) : 일부 시스템은 사용자가 복수의 상호작용을 임의의 주어진 시간(사용자가 다음 작업으로 이동하기 전에 하나의 작업을 완료할 필요가 없음) 내에서 열리게 하도록 허용할 수 있다. 이 경우에, 특징들은 그 수만큼의 상호작용이 현재 열려있고, 가장 오래된 상호작용이 시작된 이후로 경과된 시간을 나타내도록, 부가될 수 있다. 이 정보는 다시, 주어진 사용자를 특징짓는 특징 벡터를 구축하는데 사용될 수 있다. 대화 상태는 또한 시스템 상에서 수행되는 활동 사용의 종류 또는 지속시간을 포함할 수 있다. 예컨대, 하나의 시스템에 로그되어 스톡 가격을 체크하는 경우, 항상 특정한 사용은 이메일에 접속할 수도 있다.

10) 명령들 사이의 지속시간(Duration between commands) : 다른 사용자들이 다른 속도로 시스템과 상호작용을 할 수 있다. 그러나, 주어진 사용자는 종종 명령들 사이의 지속시간 내의 규칙성을 보여준다. 그러므로, 마지막 명령의 끝과 현재 명령의 시작 사이의 지속시간은 하나의 특징으로 명백하게 입력된다.

모든 상기 특징들은 어떻게 사용자가 시스템과 상호작용을 하는지를 묘사한다. 유용할 수도 있는 부가적인 특징이 또한 어떻게 주어진 사용자가 행동하는지를 특징짓는다. 이러한 부가적인 특징은 예컨대, 시스템 초기화 단계에서 사용자의 시스템에 의해 재단될 수도 있으며, 또한 특성 벡터 v에 추가될 수도 있다. 대화형시스템(114)은 v를 계산하기 위해 필요한 모든 데이터를 제공한다.

특성 추출기(204)는 사용자로부터의 모든 입력에 대한 특성 벡터 v를 추출하고, 그것을 행동 데이터 저장 장치(206)와 확률 계산기(210) 양쪽에 보낸다. 행동 데이터 저장장치(206)는 특정한 사용자에 대해 수집된 모든 특성 벡터를 저장하는데 사용되고, 각 허가된 사용자에 대한 행동 모델(214)을 구축하도록 모델 구축기(208)에 의해 사용된다. 본 발명의 일 실시예에 있어서, 단순한 행동 모델이, 오직 평균 벡터m과 특징 벡터(v's)의 세트에 대한 공분산 행렬 Σ를 포함하여 구축된다. 이 경우에 있어서, 충분한 수의 특성 샘플 벡터v가 수집된 때에는, 모델 구축기(208)는 평균 벡터m과 주어진 사용자에 대한 공분산 행렬 Σ를 계산한다. 평균 벡터m과 공분산 행렬 Σ는 행동 모델(214)에 저장된다. 평균 벡터들과 공분산 행렬들의 계산은 종래 기술에도 알려져 있다. 특징 벡터는 연속적으로 수집되고, 행동 모델(214)은 사용자의 행동 내의 임의의 점진적인 변화를 수용하기 위해 주기적으로 업데이트된다.

확률 계산기(210)는 그 뒤, 주어진 P의 확률을 예컨대, 다음과 같이 계산한다 :

(2)

이는 주어진 입력이 올바른 사용자로부터 나왔을 가능성을 행동 모델(214)에 기반하여, 묘사한다. P의 값이 더 클수록, 입력이 정당하거나 허가된 사용자로부터 나왔을 가능성도 더 높다.

확률 혼합기(212)는 확률 스코어 P를 취하여, 2개의 단계를 수행한다. 우선, 방정식 (2)로부터 현재 입력 및 선택된 수의 이전 입력에 대한 확률 스코어 P의 웨이트된 평균을 계산한다. 만약 현재 입력에 대한 확률 스코어가 P(t)로 표시되고, i번째 이전 입력에 대한 스코어는 P(t-1), i=1,....,m[여기서 m은 고려되는 이전 입력의 전체 수]]으로 표시된다면, 확률 혼합기(212)는 현재 순간의 축적된 행동 스코어, P_b(t)가 다음과 같이 계산된다.

(3)

여기서, 음이 아닌 웨이트 α_i's는 α_t+ α_t-1+ …+ α_t-m= 1 과 α_t≥α_t-1≥ …≥α_t-m≥0 을 만족한다. m 값은 고려되는 이전 확률 스코어의 수를 결정하는 시스템 파라미터이고, 시스템 설계자에 의해 결정될 수 있다. 여러 스코어를 사용하는 목적은 하나의 위조된 스코어도 잘못된 결정을 유발하지 않도록 보장하기 위함이다.

확률 혼합기(212)에 의해 수행되는 제2 단계는 행동 스코어 P_b(t)를, 음향 및 생체 인증기(112)에 의해 제공되는 현재 입력에 대한 음향 스코어(및/또는 생체 스코어) P_α(t)와 행동 스코어 P_b(t)를 더 혼합하는 것이다(도 1). 음향 스코어 P_α(t)는 화자 인증에서 사용되는 표준 음향 스코어일 수 있으며, 만약 현재 사용자 입력이 음성 형태라면[만약 현 입력이 음성 형태가 아니라면,P _α (t)=P _α (t-1)의 설정 또는 가장 최근의 과거 음성 입력과 같은 다른 근사화(approximation)가 사용될 수 있음], 현 사용자 입력으로부터 음성 샘플을 사용하여 계산될 수 있다. 확률 혼합기(212)는 전체 스코어 아래와 같이 주어지는P _total (t)를 계산한다.

(4)

여기서 음이 아닌 웨이트 β_i'는 β_a+ β_b= 1 를 만족하고, 이는 시스템 설계자에 의해 선택될 수 있으며, 이후에 사용자의 기호에 기반하여 개조될 수 있다.

확률 혼합기(212)는 P_total(t)의 값을 소정의 문턱 P_th와 비교하고, 만약 P_total(t)＜P_th라면, 사용자는 침입자일 수도 있다는 메세지가 음향 및 생체 인증시(112)에 보내진다. 일 실시예에 있어서, 음향 및 생체 인증기(112)는 사용자를 방해하여 사용자에게 더 완전한 인증 절차를 거치도록 요청한다. 만약 추가적인 인증이 실패된다면, 사용자는 더 이상 그 시스템을 사용하도록 허가되지 않는다. 만약 추가적인 인증이 성공한다면, 사용자는 장래 경고 메세지가 확률 혼합기(212)에 의해 생성될 때까지 그 시스템과 상호작용을 허가 받는다.

일 실시예에 있어서, 사용자는 시스템과 상호작용을 계속하도록 허가 받지만, 시스템 상의 민감한 자료에 대한 접근은 거부된다. 자료의 민감성은 레벨을 포함하며, 민간한 자료로의 접근 레벨은 문턱에 관련한 스코어에 기반한다. 예컨대, 종업원 그룹이 시스템에 접근하도록 허가 받을 수 있으나, 일부 종업원은 민감한 자료로부터 배제되어야 한다. 그 종업원들의 행동들이 민감한 자료로부터 허가 받지 않은 종업원을 배제하도록 채용될 수 있다.

문턱 P_th는 시스템 설계자에 의해 선택되는 시스템 파라미터이다. 그러나 문턱은 수행의 목표 레벨에 따라 사용자에 의해 개조될 수 있다.

본 발명의 또 다른 실시예를 설명하고자 한다. 모델 구축기(208)은 2개 또는 이상의 모델을 구축하며, 그 모음은 행동 모델(214) 내에 저장된다. 각각의 모델을 구축하기 위해, 임의의 표준 클러스터링 알고리즘을 사용하여, 특징 벡터v의 모음이 우선 다수의 클러스터에 분할되며, 이 알고리즘이란 예컨대, 잘 알려진 K-means 클러스터링 알고리즘과 같은 것이다. 각 클러스터 i에 대해, 평균 벡터m _i과 공분산 행렬 Σ_i가 계산되고 방정식 (2)는 아래와 같이 개조된다.

(5)

방정식 (3)과 (4)는 동일하게 유지되지만, 상기 방정식 (5)로부터 계산된 P 값을 사용한다. 특징 벡터의 클러스터를 구축하는 목적은, 사용되는 상이한 작업 또는 상이한 장치의 예에 대응하여, 다른 시간에 동일한 사용자에 의해 나타내질 수 있는 다른 행동을 수용하기 위한 것이다. 따라서, 클러스터링 알고리즘을 사용하는 대신에, 클러스터가, 접근되는 어플리케이션(이 메일, 캘린더, 스톡 트레이딩, 등), 접근 장치(전화, 셀룰러 폰, 노트북, 컴퓨터, 데스크탑 컴퓨터, 퍼스널 디지털 단말기 등) 또는 일부 다른 요소와 같이, 상호작용과 관련된 요소의 기반하여, 명백하게 구축될 수 있다.

행동 모델(이 모델은 예시적이며 한정을 목적으로 하지 않음)을 사용한 비-개입적(non-intrusive) 화자 인증용 방법 및 시스템의 바람직한 실시예를 설명했으며, 상기 기술의 관점에서 당업자들에 의한 개조와 변경이 가능함에 주목해야 한다. 그러므로, 첨부되는 청구항에 의해 규정되는 본 발명의 범위와 정신 내에서 공개되는 발명의 특정한 실시예에는 변화가 있을 수 있음을 이해해야 한다. 그러므로 특히 특허법에 의해 요청되도록 명세서로 본 발명을 설명했지만, 청구되어지고 특허로 보호받기를 희망하는 것은 하기의 청구항에 기술한다.

Claims

사용자로부터 입력을 수신하고, 상기 입력을 형식적 명령(formal command)으로 변환하기 위한 대화형 시스템과;

상기 대화형 시스템에 접속되고, 상기 입력으로부터 특징을 추출하기 위한 행동 인증기를 포함하고,

상기 특징은 상기 사용자의 행동 패턴을 포함하는 것이고, 상기 행동 인증기는 상기 사용자가 상기 시스템과 상호작용을 하도록 허가된 자인지 여부를 결정하기 위해, 상기 입력 행동을 행동 모델과 비교하기 위한 것인

사용자 신원 인증 시스템.
제1항에 있어서, 상기 대화형 시스템은 상기 입력으로써 수신된 음성을 번역하기 위한 자연어 이해 유닛을 포함하는 것인 사용자 신원 인증 시스템.
제1항에 있어서, 상기 입력은 음성(speech), 필체(handwriting), 문장(text) 및 제스처 중 적어도 하나를 포함하는 것인 사용자 신원 인증 시스템.
제1항에 있어서, 상기 행동 인증기는 상기 입력으로부터 특징 벡터를 추출하기 위한 특징 추출기를 포함하는 것인 사용자 신원 인증 시스템.
제4항에 있어서, 상기 특징 벡터는 언어 모델 스코어, 음향 모델 스코어, 자연어와, 이해 스코어 중 적어도 하나를 포함하는 것인 사용자 신원 인증 시스템.
제4항에 있어서, 상기 특징 벡터는 명령 예측 스코어와 발음 스코어 중 적어도 하나를 포함하는 것인 사용자 신원 인증 시스템.
제4항에 있어서, 상기 특징 벡터는 상기 사용자에 대한 시스템 응답에 관한 정보를 포함하는 것인 사용자 신원 인증 시스템.
제4항에 있어서, 상기 특징 벡터는 상기 사용자 명령 사이의 지속시간과, 상기 사용자와 상기 시스템 사이의 대화 상태 중 적어도 하나를 포함하는 것인 사용자 신원 인증 시스템.
제4항에 있어서, 상기 특징 벡터는 상기 사용자에 의해 채용되는 입력 양식의 종류들을 포함하는 것인 사용자 신원 인증 시스템.
제1항에 있어서, 상기 행동 모델은 복수의 모델을 포함하는 것인 사용자 신원 인증 시스템.
제1항에 있어서, 상기 행동 인증기는 확률 계산기를 포함하는 것이고, 상기확률 계산기는 사용자의 행동에 기반하여, 상기 사용자가 상기 시스템과 상호작용을 하도록 허가된 자일 제1 확률을 계산하기 위한 것인 사용자 신원 인증 시스템.
제11항에 있어서, 상기 행동 인증기는 사용자에 대한 상기 행동 모델을 구축하기 위한 모델 구축기를 포함하는 것이고, 상기 행동 모델은 행동을 상기 사용자의 현재 행동과 비교하기 위해 상기 확률 계산기에 의해 채용되는 것인 사용자 신원 인증 시스템.
제11항에 있어서, 상기 사용자로부터 음향 및 생체 정보를 결정하고, 상기 사용자의 음향 또는 생체 정보에 기반하여, 사용자가 상기 시스템과 상호작용을 하도록 허가된 자일 제2 확률을 결정하기 위한 음향 및 생체 인증기를 더 포함하고,

상기 행동 인증기는 상기 사용자가 상기 시스템과 상호작용을 하도록 허가된 자인지를 인증하기 위해, 상기 제1 확률을 상기 제2 확률과 통합하기 위한 확률 혼합기를 포함하는 것인 사용자 신원 인증 시스템.
제11항에 있어서, 상기 제1 확률은 상기 사용자가 상기 시스템을 사용하도록 허가된 자인지 여부를 결정하기 위해 문턱 확률(threshold probability)과 비교되는 것인 사용자 신원 인증 시스템.
사용자로부터 입력을 수신하고, 상기 입력을 형식적 명령으로 변환하도록,상기 입력을 대화형 시스템에 제공하는 단계와;

상기 입력으로부터 특징을 추출하는 단계(상기 특징은 상기 사용자의 행동 패턴을 포함하는 것임)와;

상기 사용자가 상기 시스템과 상호작용하도록 허가된 자인지 여부를 결정하기 위해, 상기 입력 행동을 행동 모델과 비교하는 단계를 포함하는,

행동에 기반한 사용자 인증 방법.
제15항에 있어서, 상기 대화형 시스템은 자연어 이해 유닛을 포함하는 것이고, 상기 방법은 상기 입력으로써 수신된 음성(speech)을 번역하는 단계를 더 포함하는 사용자 인증 방법.
제15항에 있어서, 상기 입력은 음성(speech), 필체(handwriting), 문장(text) 및 제스처 중 적어도 하나를 포함하는 것인 사용자 인증 방법.
제15항에 있어서, 상기 행동 인증기는 특징 추출기를 포함하는 것이고, 상기 입력으로부터 특징 벡터를 추출하는 단계를 더 포함하는 것인 사용자 인증 방법.
제18항에 있어서, 상기 특징 벡터는 언어 모델 스코어, 음향 모델 스코어 및 자연어 이해 스코어 중 적어도 하나를 포함하는 것인 사용자 인증 방법.
제18항에 있어서, 상기 특징 벡터는 명령 예측 스코어 및 발음 스코어 중 적어도 하나를 포함하는 것인 사용자 인증 방법.
제18항에 있어서, 상기 특징 벡터는 상기 사용자에 대한 시스템 응답에 관한 정보를 포함하는 것인 사용자 인증 방법.
제18항에 있어서, 상기 특징 벡터는 상기 사용자 명령 사이의 지속시간과, 상기 사용자와 상기 시스템 사이의 대화 상태 중 적어도 하나를 포함하는 것인 사용자 인증 방법.
제18항에 있어서, 상기 특징 벡터는 상기 사용자에 의해 채용되는 입력 양식의 종류들을 포함하는 것인 사용자 인증 방법.
제15항에 있어서, 상기 행동 인증기는 확률 계산기를 포함하는 것이고,

상기 확률 계산기 상에서 제1 확률을 계산하는 단계를 더 포함하고, 상기 제1 확률은 상기 사용자의 행동에 기반하여 상기 사용자가 상기 시스템과 상호작용하도록 허가받은 자인지 여부를 지시하는 것인

사용자 인증 방법.
제24항에 있어서, 상기 행동 인증기는 모델 구축기를 포함하는 것이고,

사용자에 대한 상기 행동 모델을 구축하는 단계를 더 포함하고,

상기 행동 모델은 행동을 상기 사용자의 현재 행동과 비교하기 위해, 상기 확률 계산기에 의해 채용되는 것인

사용자 인증 방법.
제24항에 있어서, 상기 행동 인증기는 상기 사용자로부터 음향 및 생체 정보를 결정하기 위한 음향 및 생체 인증기를 더 포함하는 것이고,

상기 사용자의 음향 또는 생체 정보에 기반하여, 사용자가 상기 시스템과 상호작용을 하도록 허가된 자일 제2 확률을 결정하는 단계와;

상기 사용자가 상기 시스템과 상호작용을 하도록 허가된 자인지를 인증하기 위해, 확률 혼합기를 채용함으로써 상기 제1 확률을 상기 제2 확률과 통합하는 단계를 더 포함하는 사용자 인증 방법.
상기 제1 확률은 상기 사용자가 상기 시스템을 사용하도록 허가된 자인지 여부를 결정하기 위해 문턱 확률(threshold probability)과 비교되는 것인 사용자 인증 방법.
행동에 기반하여 사용자를 인증하기 위한 방법 단계를 수행하기 위한 머신(machine)에 의해 실행가능한 명령들의 프로그램을 명백하게 실행하는, 머신에 의해 판독가능한 프로그램 저장 장치에 있어서,

상기 방법 단계는,

사용자로부터 입력을 수신하고, 상기 입력을 형식적 명령으로 변환하도록, 상기 입력을 대화형 시스템에 제공하는 단계와;

상기 입력으로부터 특징을 추출하는 단계(상기 특징은 상기 사용자의 행동 패턴을 포함하는 것임)와;

상기 사용자가 상기 시스템과 상호작용하도록 허가된 자인지 여부를 결정하기 위해, 상기 입력 행동을 행동 모델과 비교하는 단계를 포함하는 것인

프로그램 저장 장치.
제28항에 있어서, 상기 대화형 시스템은 자연어 이해 유닛을 포함하는 것이고, 상기 방법은 상기 입력으로써 수신된 음성(speech)을 번역하는 단계를 더 포함하는 것인 프로그램 저장 장치.
제28항에 있어서, 상기 입력은 음성(speech), 필체(handwriting), 문장(text) 및 제스처 중 적어도 하나를 포함하는 것인 프로그램 저장 장치.
제28항에 있어서, 상기 행동 인증기는 특징 추출기를 포함하는 것이고, 상기 입력으로부터 특징 벡터를 추출하는 단계를 더 포함하는 것인 프로그램 저장 장치.
제31항에 있어서, 상기 특징 벡터는 언어 모델 스코어, 음향 모델 스코어 및자연어 이해 스코어 중 적어도 하나를 포함하는 것인 프로그램 저장 장치.
제31항에 있어서, 상기 특징 벡터는 명령 예측 스코어 및 발음 스코어 중 적어도 하나를 포함하는 것인 프로그램 저장 장치.
제31항에 있어서, 상기 특징 벡터는 상기 사용자에 대한 시스템 응답에 관한 정보를 포함하는 것인 프로그램 저장 장치.
제31항에 있어서, 상기 특징 벡터는 상기 사용자 명령 사이의 지속시간과, 상기 사용자와 상기 시스템 사이의 대화 상태 중 적어도 하나를 포함하는 것인 프로그램 저장 장치.
제31항에 있어서, 상기 특징 벡터는 상기 사용자에 의해 채용되는 입력 양식의 종류들을 포함하는 것인 프로그램 저장 장치.
제28항에 있어서, 상기 행동 인증기는 확률 계산기를 포함하는 것이고,

상기 확률 계산기 상에서 제1 확률을 계산하는 단계를 포함하고,

상기 제1 확률은, 상기 사용자의 행동에 기반하여 상기 사용자가 상기 시스템과 상호작용하도록 허가된 자인지 여부를 지시하는 것인

프로그램 저장 장치.
제37항에 있어서, 상기 행동 인증기는 모델 구축기를 포함하는 것이고, 상기 방법은 사용자에 대한 상기 행동 모델을 구축하는 단계를 더 포함하는 것이고, 상기 행동 모델은 행동을 상기 사용자의 현재 행동과 비교하기 위해, 상기 확률 계산기에 의해 채용되는 것인 프로그램 저장 장치.
제37항에 있어서, 상기 사용자로부터 음향 및 생체 정보를 결정하기 위한 음향 및 생체 인증기를 더 포함하고,

상기 방법은 상기 사용자의 음향 또는 생체 정보에 기반하여, 사용자가 상기 시스템과 상호작용을 하도록 허가된 자인지 여부를 지시하는 제2 확률을 결정하는 단계와;

상기 사용자가 상기 시스템과 상호작용을 하도록 허가된 자인지를 인증하기 위해, 확률 혼합기를 채용함으로써 상기 제1 확률을 상기 제2 확률과 통합하는 단계를 더 포함하는 것인 프로그램 저장 장치.
제37항에 있어서, 상기 제1 확률은 상기 사용자가 상기 시스템을 사용하도록 허가된 자인지 여부를 결정하도록 문턱 확률(threshold probability)과 비교되는 것인 프로그램 저장 장치.