KR20150103264A

KR20150103264A - 음성 및/또는 안면 인식 기반 서비스 제공

Info

Publication number: KR20150103264A
Application number: KR1020157021017A
Authority: KR
Inventors: 제임스 에이. 발드윈; 구앙리 장
Original assignee: 인텔 코포레이션
Priority date: 2013-03-14
Filing date: 2013-03-14
Publication date: 2015-09-09
Also published as: US20150134330A1; EP2974124A4; JP6093040B2; EP2974124A1; CN104995865B; CN104995865A; WO2014139117A1; KR101731404B1; US9218813B2; JP2016517548A

Abstract

음성 및/또는 안면 인식 기반 서비스 제공과 연관된 장치들, 방법들 및 저장 매체가 본원에 제공된다. 실시예들에서, 장치는, 개별적으로 또는 서로 협력하여, 복수의 식별 레벨들에서 사용자의 식별을 제공하도록 구성된 음성 인식 엔진(204a) 및 안면 인식 엔진(204b)을 포함할 수 있다. 장치는, 장치의 사용자가 적어도 서비스를 식별하기 위해 요구되는 식별 레벨에서 식별된 이후, 사용자에게 서비스를 제공하도록 구성된 서비스 에이전트(206)를 더 포함할 수 있다.

Description

음성 및/또는 안면 인식 기반 서비스 제공{VOICE AND/OR FACIAL RECOGNITION BASED SERVICE PROVISION}

본 개시내용은 데이터 프로세싱 분야, 특히, 음성 및/또는 안면 인식 기반 서비스 제공과 연관된 장치들, 방법들 및 저장 매체에 관한 것이다.

본원에 제공된 배경기술 설명은 일반적으로 개시내용의 상황을 나타낼 목적을 위한 것이다. 본원에 달리 표시되지 않는 한, 이 섹션에 기술된 자료들은 이 출원 내의 청구항들에 대한 종래 기술이 아니며, 이 섹션 내의 포함에 의해 종래 기술인 것으로 인정되지 않는다.

컴퓨팅, 네트워킹 및 관련 기술에서의 진보는, 단지 몇 개만 들자면, 멀티미디어 콘텐츠의 소비에서 전자상거래 및 금융 서비스까지, 온라인 서비스의 사용의 급증을 가져왔다. 사용자들은 종종 동일한 클라이언트 디바이스를 이용하여 광범위한 서비스들에 액세스하는 것을 선호한다. 그러나, 보안 요건들은 종종, 온라인 상으로 비디오 파일 보기와 같은 스펙트럼의 한 편(one end of the spectrum)으로부터, 온라인 상으로 뱅킹 거래 수행하기와 같은 다른 편까지, 상이한 서비스들 사이에서 크게 달라진다. 현재의 기술은 상이한 온라인 서비스들의 큰 범위의 보안 요건들을 신뢰가능하게 만족시킬 수 있는 일관적인 사용자-친화적 제공이 결여되어 있다.

실시예들은 첨부 도면들과 함께 후속하는 상세한 설명에 의해 쉽게 이해될 것이다. 이 설명을 용이하게 하기 위해, 동일한 참조 번호들은 동일한 구조적 엘리먼트들을 나타낸다. 실시예들은, 제한이 아닌 예시에 의해, 첨부 도면들의 도식들에 예시되어 있다.
도 1은 다양한 실시예들에 따른, 본 개시내용을 실시하기에 적합한 클라이언트 디바이스를 포함하는, 컴퓨팅 환경의 개요를 예시한다.
도 2는 다양한 실시예들에 따른, 음성 및/또는 안면 인식 기반 서비스 제공의 예시적인 프로세스를 예시한다.
도 3은 다양한 실시예들에 따른, 클라이언트 디바이스로서 사용하기에 적합한 예시적인 컴퓨팅 시스템을 예시한다.
도 4는 다양한 실시예들에 따라, 장치가 본 개시내용의 프로세스들을 실시할 수 있게 하도록 구성된 명령들을 가지는 예시적인 저장 매체를 예시한다.

음성 및/또는 안면 인식 기반 서비스 제공과 연관된 장치들, 방법들 및 저장 매체가 본원에 개시되어 있다. 실시예들에서, 장치, 예를 들어, 셋톱 박스 또는 컴퓨팅 태블릿은, 개별적으로 또는 서로 협력하여, 복수의 식별 레벨들에서 사용자의 식별을 제공하도록 구성된 음성 인식 엔진 및 안면 인식 엔진을 포함할 수 있다. 장치는, 장치의 사용자가 적어도 서비스를 수신하기 위해 요구되는 식별 레벨에서 식별된 이후, 사용자에게 서비스를 제공하도록 구성된 서비스 에이전트를 더 포함할 수 있다. 서비스 에이전트의 예들은 멀티미디어 콘텐츠를 소비하기 위한 향상된 미디어 플레이어, 또는 전자상거래 또는 온라인 금융 거래를 수행하기 위한 향상된 브라우저를 포함할 수 있다.

후속하는 상세한 설명에서, 본원의 일부를 이루는 첨부 도면들에 대한 참조가 이루어지며, 첨부 도면들에서 동일한 참조 부호는 명세서 전반에 걸쳐 동일한 부분을 나타내고, 실시될 수 있는 실시예들이 예시에 의해 도시되어 있다. 다른 실시예들이 이용될 수 있으며, 구조적 또는 논리적 변경들이 본 개시내용의 범위에서 벗어나지 않고 이루어질 수 있다는 점이 이해될 것이다. 따라서, 후속하는 상세한 설명은 제한적인 의미로 취해지지 않아야 하며, 실시예들의 범위는 첨부된 청구항들 및 그 등가물들에 의해 정의된다.

다양한 동작들은 청구된 발명 대상의 이해에 있어 가장 유용한 방식으로, 차례로 다수의 이산적인 행동들 또는 동작들로서 기재될 수 있다. 그러나, 기재 순서가 이들 동작들이 반드시 순서에 종속적임을 내포하는 것으로 해석되지는 않아야 한다. 특히, 이들 동작들은 표시 순서대로 수행되지 않을 수 있다. 기재된 동작들은 기재된 실시예와는 상이한 순서로 수행될 수 있다. 다양한 추가적인 동작들이 수행될 수 있고 그리고/또는 기재된 동작들은 추가적인 실시예들에서 생략될 수 있다.

본 개시내용의 목적을 위해, 구문 "A 및/또는 B"는 (A), (B) 또는 (A 및 B)를 의미한다. 본 개시내용의 목적을 위해, 구문 "A, B 및/또는 C"는 (A), (B), (C), (A 및 B), (A 및 C), (B 및 C), 또는 (A, B 및 C)를 의미한다.

기재는 구문 "실시예에서" 또는 "실시예들에서"를 사용할 수 있는데, 이는 각각 동일한 또는 상이한 실시예들 중 하나 이상을 지칭할 수 있다. 또한, 용어 "포함하는(comprising, including), "가지는" 등은, 본 개시내용의 실시예들과 관련하여 사용되는 바와 같이, 유의어이다.

본원에서 사용되는 바와 같이, 용어 "모듈"은 주문형 집적 회로("ASIC"), 전자 회로, 하나 이상의 소프트웨어 또는 펌웨어 프로그램들을 실행하는 프로세서(공유, 전용, 또는 그룹) 및/또는 메모리(공유, 전용, 또는 그룹), 복합 논리 회로, 및/또는 기재된 기능성을 제공하는 다른 적절한 컴포넌트들을 지칭하거나, 이들의 일부이거나, 또는 이들을 포함할 수 있다.

이제 도 1을 참조하면, 다양한 실시예들에 따라, 본 개시내용을 실시하기 위한, 클라이언트 디바이스를 포함하는, 컴퓨팅 환경이 예시되어 있다. 도시된 바와 같이, 실시예들에서, 환경(100)은 네트워크들(106)을 통해 온라인 서비스 제공자들의 다수의 서버들(104)에 커플링된 다수의 클라이언트 디바이스들(102)을 포함할 수 있다. 서버들(104)은 상이한 사용자 식별 요건들을 가지는 광범위한 온라인 서비스들을 제공하도록 구성될 수 있다. 이러한 온라인 서비스들 및 그 제공자들의 예들은, 케이블 텔레비전 제공자들 또는 Youtube, Netflix 등과 같은 온라인 멀티미디어 콘텐츠 제공자들과 같은 콘텐츠 배포자에 의해 제공된 사용자 맞춤형 멀티미디어 콘텐츠 서비스, Ebay, Best Buy 등과 같은 호스트들에 의해 용이하게 되는 전자상거래, 또는 Bank of America, Etrade 등과 같은 금융 기관들에 의해 제공된 금융 서비스를 포함할 수 있지만 이에 제한되지 않는다. 하기에 더 상세하게 기재될 바와 같이, 실시예들에서, 클라이언트 디바이스들(102)은 상이한 온라인 서비스들의 상이한 사용자 식별 요건들을 만족시키기 위해 사용자 식별들의 다양한 레벨들을 제공하는 것에 대해 잠재적으로는 더욱 일관적이고, 사용자 친화적이며 신뢰성 있는 접근법을 제공하도록 구성될 수 있다.

실시예들에서, 일부 온라인 서비스는 사용자의 음성 특성들에 기초한 사용자의 음성 인식만을 요구할 수 있다. 다른 온라인 서비스들은 사용자의 안면 특징들에 기초한 사용자의 안면 인식만을 요구할 수 있다. 또다른 온라인 서비스들은 전술된 사용자의 음성 인식과 안면 인식 모두, 및 잠재적으로, 하기에 더 충분히 기술될, 다른 훨씬 더 정교한 음성 및/또는 얼굴 인식 식별들을 요구할 수 있다.

실시예들에서, 도시된 바와 같이, 클라이언트 디바이스(102)는, 도시된 바와 같이 서로 커플링된, 음성 및 안면 인식 엔진들(204a 및 204b), 및 다수의 서비스 에이전트들(206)을 포함할 수 있다. 또한, 실시예들에서, 클라이언트 디바이스(102)는 도시된 바와 같이, 서로, 엔진들(204a 및 204b) 및 에이전트들(206)과 커플링된, 표시 엔진(presentation engine)(134), 사용자 인터페이스 엔진(136), 디스플레이(124) 및 사용자 입력 디바이스(126)를 포함할 수 있다. 실시예들에서, 음성 및 안면 인식 엔진들(204a 및 204b)의 협력적 사용을 용이하게 하기 위해, 클라이언트 디바이스(102)는 엔진들(204a 및 204b)에 대한 공통 인터페이스(미도시됨)를 더 포함할 수 있다.

실시예들에서, 음성 및 안면 인식 엔진들(204a 및 204b)은, 개별적으로 또는 서로 협력하여, 다수의 식별 레벨들에서 사용자 식별들을 제공하도록 구성될 수 있다. 실시예들에서, 음성 인식 엔진(204a)은 사용자의 음성의 음성 특성들에 기초하여, 사용자의 식별을 제공하도록 구성될 수 있는 반면, 안면 인식 엔진(204b)은 사용자의 안면 특징들에 기초하여, 사용자의 식별을 제공하도록 구성될 수 있다. 실시예들에서, 음성 인식 엔진(204a) 및 안면 인식 엔진(204b)은 협력하여 위의 식별들을 제공할 수 있다. 예를 들어, 일부 실시예들에서, 음성 인식 엔진(204a)이 먼저 사용되어 사용자들의 식별을 다수의 잠재적 식별들로 좁힐 수 있고, 안면 인식 엔진(204b)이 이후 사용되어 잠재적 식별들의 좁혀진 리스트에 기초하여 최종 식별을 할 수 있다. 다른 실시예들에서, 협력이 역전될 수 있는데, 즉, 안면 인식 엔진(204b)이 먼저 사용되어 사용자의 식별을 다수의 잠재적 식별들로 좁힐 수 있고, 음성 인식 엔진(204a)이 이후 사용되어 잠재적 식별들의 좁혀진 리스트에 기초하여 최종 식별을 할 수 있다. 따라서, 이들 협력적 실시예들에 대해, 덜 정확한(그리고 통상적으로 계산 강도가 더 적은) 기법이 처음 사용된 인식 엔진에 대해 구현될 수 있고, 더 정확한(그리고 통상적으로 계산 강도가 더 큰) 기법이 나중에 사용된 인식 엔진에 대해 구현될 수 있다. 더불어, 협력적 접근법은 더 정확한 식별을, 그러나 전체적으로 더 적은 계산을 통해 획득할 수 있으며, 따라서 더욱 효과적일 뿐만 아니라 더욱 효율적이다.

따라서, 실시예들에 따라, 음성 인식 엔진(204a)은 사용자의 음성 입력을 다수의 음성 템플릿들과 비교하여 사용자를 식별하기 위한 광범위한 음성 인식 기볍들 중 임의의 하나 이상을 구현할 수 있다. 광범위한 음성 인식 기법들은 주파수 추정 기법(frequency estimation technique), 마르코프 모델 기법(Markov model technique), 가우시안 혼합 모델 기법(Gaussian mixture model technique), 패턴 매칭 기법(pattern matching technique), 신경망 기법(neural network technique), 행렬 표현 기법(matrix representation technique), 벡터 양자화 기법(vector quantization technique) 또는 결정 트리 기법(decision tree technique)을 포함할 수 있지만 이에 제한되지 않는다. 유사하게, 안면 인식 엔진(204b)은 사용자의 이미지 입력을 다수의 기준 이미지들과 비교하기 위해 광범위한 안면 인식 기법들 중 임의의 하나 이상을 구현할 수 있다. 광범위한 음성 인식 기법들은 눈, 코, 광대뼈 또는 턱의 상대적 위치, 크기 또는 형상의 분석을 포함할 수 있지만 이에 제한되지 않는다.

실시예들에서, 음성 인식 엔진(204a)은 예를 들어 온라인 서비스에 로그인하기 위해 요구되는 패스프레이즈(passphrase)가 음성 입력을 통해 제공될 수 있게 하기 위해, 음성 입력의 시맨틱 콘텐츠(semantic content)를 식별하도록 추가로 구성될 수 있다. 다른 실시예들에서, 음성 및 안면 인식 엔진(204a 및 204b)은 협력하여, 이미지 입력들의 동반 시리즈(a companion series of image inputs)로 보여지는 바와 같이 음성 입력이 입술 움직임과 동기화된 감쇠인지를 식별하도록 추가로 구성될 수 있다. 동기화의 식별은 2개의 엔진들(204a 및 204b)의 분석들에 기초하여, 엔진들(204a 및 204b) 모두에 대한 공통 인터페이스에 의해 제공될 수 있다. 다른 실시예들에서, 음성 및 안면 인식 엔진(204a 및 204b)은 협력하여 음성 입력이 동반 이미지 입력과 동기화된 위치인지를, 즉, 음성 입력을 제공한 음원의 위치가 이미지 입력의 오브젝트의 위치와 동일한지를 식별하도록 추가로 구성될 수 있다. 실시예들에서, 클라이언트 디바이스(102)는 예를 들어 다른 입력 디바이스들(126) 중 하나로서, 글로벌 포지셔닝 시스템(GPS; global positioning system) 컴포넌트와 같은, 위치 서비스를 포함할 수 있다.

여전히 도 1을 참조하면, 서비스 에이전트들(204)은 클라이언트 디바이스들(102)의 사용자들에 대해 다양한 온라인 서비스들을 제공하고 그리고/또는 용이하게 하도록 구성될 수 있다. 서비스 에이전트들 및 용이하게 된 서비스들의 예들은 사용자 맞춤형 서비스를 포함하는 멀티미디어 콘텐츠 서비스의 제공을 용이하게 하도록 구성된 멀티미디어 플레이어, 전자상거래 또는 금융 서비스들에 대한 액세스를 용이하게 하도록 구성된 브라우저 등을 포함할 수 있지만 이에 제한되지 않는다. 이들 멀티미디어 플레이어들 및 브라우저들은 음성 및/또는 안면 인식 엔진들(204a 및 204b)에 의해 제공되는 멀티-레벨 식별 서비스들을 이용하기 위한 향상된 버전들일 것이다. 따라서, 음성 및/또는 안면 인식 엔진들(204a 및 204b)에 의해 제공되는 멀티-레벨 식별 서비스들의 사용에 대한 것을 제외하고는, 서비스 에이전트들(204)은 멀티미디어 플레이어들, 브라우저들, 또는 서비스 특정적 애플리케이션들을 포함하지만 이에 제한되지 않는 클라이언트 디바이스들 상에서 발견되는 광범위한 서비스 에이전트들을 나타내도록 의도된다.

실시예들에서, 표시 엔진(134)은 사용자 선택들/입력들에 응답하여, 디스플레이(124) 상에 디스플레이될 콘텐츠를 표시하도록 구성될 수 있다. 사용자 인터페이스 엔진(136)은 사용자로부터 사용자 선택들/입력들을 수신하도록 구성될 수 있다. 또한, 다양한 실시예들에서, 표시 엔진(136) 및 사용자 엔진(136)은 일부 사용자 커맨드들에 대한 응답 동안 콘텐츠의 표시의 적응(adaptation)을 실행하여 사용자 경험을 향상시키도록 구성될 수 있으며, 여기서 적응은 사용자 커맨드들에 대한 공칭적 응답에 더해진다. 예를 들어, 2012년 12월 26일에 출원된 "CONTENT PRESENTATION WITH ENHANCED USER EXPERIENCE"라는 명칭의 미국 특허 출원 제13/727,138호를 참조한다.

디스플레이(124)는 당해 기술 분야에 공지된 광범위한 디스플레이 디바이스들/스크린들을 나타내도록 의도되는 반면, 입력 디바이스들(126)은 (하드 또는 소프트) 키보드 및 커서 제어 디바이스, 음성 입력을 위한 마이크로폰, 이미지 입력을 위한 카메라 등을 포함하지만 이에 제한되지 않는 당해 기술분야에 공지되어 있는 광범위한 입력 디바이스들을 나타내도록 의도된다. 클라이언트 디바이스(102)의 일부분으로서 도시되었지만, 디스플레이(124) 및/또는 사용자 입력 디바이스(들)(126)는 클라이언트 디바이스들(102)의 상이한 실시예들에 대해, 독립형 디바이스들이거나 또는 통합될 수 있다. 예를 들어, 텔레비전 배열(arrangement)에 대해, 디스플레이(124)는 독립형 텔레비전 세트, 액정 디스플레이(LCD), 플라즈마 등일 수 있는 반면, 엘리먼트들(204, 206, 134 및 136)은 별도의 셋톱 박스의 일부일 수 있고, 다른 사용자 입력 디바이스(126)는 별도의 원격 제어기 또는 키보드일 수 있다. 유사하게, 데스크톱 컴퓨터 배열에 대해, 엘리먼트들(204, 206, 134 및 136)을 가지는 샤시 호스팅 또는 컴퓨팅 플랫폼, 디스플레이(124) 및 다른 입력 디바이스(들)(126)는 모두 별도의 독립형 유닛들일 수 있다. 반면, 랩톱, 울트라북, 태블릿 또는 스마트폰 배열에 대해, 엘리먼트들(204, 206, 134 및 136), 디스플레이(124) 및 다른 입력 디바이스들(126)은 함께 단일 폼 팩터로 통합될 수 있다. 또한, 태블릿 또는 스마트폰 배열에 대해, 터치 감지형 디스플레이 스크린이 또한 다른 사용자 입력 디바이스(들)(126) 중 하나로서의 역할을 할 수 있고, 엘리먼트들(204, 206, 134 및 136)은 또한 사용자 입력 디바이스(들)(126) 중 하나를 포함하는 소프트 키보드를 가지는 컴퓨팅 플랫폼의 컴포넌트들일 수 있다.

네트워크들(106)은 사설 및/또는 공중, 유선 및/또는 무선, 근거리 및/또는 광역 네트워크들의 임의의 조합들일 수 있다. 사설 네트워크들은 예를 들어, 기업 네트워크들을 포함할 수 있지만 이에 제한되지 않는다. 공중 네트워크들은, 예를 들어, 인터넷을 포함할 수 있지만 이에 제한되지 않는다. 유선 네트워크들은, 예를 들어, 이더넷 네트워크들을 포함할 수 있지만 이에 제한되지 않는다. 무선 네트워크들은 예를 들어, Wi-Fi, 또는 3G/4G 및 그 이상의 네트워크들을 포함할 수 있지만 이에 제한되지 않는다. 서버 단에서, 네트워크들(106)은 서버들(104)이 이들을 통과하여 클라이언트 디바이스들(102)과 통신하는 게이트웨이들 및 방화벽들을 가지는 하나 이상의 근거리 네트워크들을 포함할 수 있다는 점이 이해될 것이다. 유사하게, 클라이언트 디바이스 단에서, 네트워크들(106)은 기지국들 및/또는 액세스 포인트들을 포함할 수 있으며, 이들을 통해 클라이언트 디바이스들(102)이 서버들(104)과 통신한다. 클라이언트 디바이스들(102) 및 서버들(104) 각각 내에서, 통신/네트워크 인터페이스들이 존재할 수 있고, 2개의 단 사이에 임의의 개수의 네트워크 라우터들, 스위치들 및 유사한 다른 네트워킹 장비가 존재할 수 있다. 그러나, 이해의 용이함을 위해, 이들 통신/네트워크 인터페이스들, 게이트웨이들, 방화벽들, 라우터들, 스위치들, 기지국들, 액세스 포인트들 등은 도시되어 있지 않다.

이제 도 2를 참조하면, 다양한 실시예들에 따라 콘텐츠를 표시하기 위한 예시적인 프로세스가 예시되어 있다. 도시된 바와 같이, 프로세스(300)는 블록(302)에서 시작할 수 있으며, 여기서 초기 음성 및/또는 안면 식별이 음성 및/또는 안면 인식 엔진들(204a 및 204b)에 의해 설정될 수 있다. 전술된 바와 같이, 초기 음성 식별은, 전술된 다수의 음성 인식 기법들 중 임의의 하나를 사용하여, 사용자의 음성 입력을 다수의 음성 템플릿들과 비교함으로써 음성 인식 엔진(204a)에 의해 이루어질 수 있다. 초기 안면 식별은, 전술된 다수의 안면 특징 분석 기법들 중 임의의 하나를 사용하여, 사용자를 포함하는 이미지 입력을 다수의 기준 이미지들과 비교함으로써 안면 인식 엔진(204b)에 의해 이루어질 수 있다. 추가로, 전술된 바와 같이, 초기 음성 및 안면 식별은 음성 및 안면 인식 엔진들(204a 및 204b)에 의해 협력적으로 이루어질 수 있다.

프로세스(300)는 블록(302)으로부터 블록(304)으로 진행할 수 있다. 블록(304)에서, 서비스가 요청되는지의 여부에 대한 결정이 예를 들어, 서비스 에이전트들(206) 각각에 의해 이루어질 수 있다. 예를 들어, 서비스 에이전트(206) 중 하나에 의한 결정의 결과가, 서비스 에이전트(206)에게 서비스가 요청됨을 나타내는 경우, 서비스 에이전트에 대해, 프로세스(300)는 블록(304)으로부터 블록(306)으로 진행할 수 있다. 블록(306)에서, 사용자의 현재 식별 레벨이 요청된 서비스에 대한 액세스를 허용하기에 충분하거나 적합한지에 대한 또다른 결정이, 예를 들어, 서비스 에이전트(206)에 의해 이루어질 수 있다. 결정의 결과가, 현재 식별 레벨이 요청된 서비스에 대한 액세스를 허용하기에 충분하거나 적합함을 나타내는 경우, 서비스 에이전트(206)에 대해, 프로세스(300)는 블록(306)으로부터 블록(310)으로 진행할 수 있다.

결정의 결과가 현재 식별 레벨이 요청된 서비스에 대한 액세스를 허용하기에 불충분하거나 부적합함을 나타내는 경우, 프로세스(300)는 블록(306)으로부터 블록(308)으로 진행할 수 있다. 블록(308)에서, 추가적인 식별 레벨이 시도될 수 있다. 전술된 바와 같이, 추가적인 식별 레벨은 사용자에게 또다른 음성 입력을 통해 패스프레이즈를 제공하도록 요청하는 것을 포함할 수 있다. 음성 인식 엔진(204a)은 추가적인 음성 입력의 시맨틱 콘텐츠를 분석하여 시맨틱 콘텐츠가 예상된/요구된 패스프레이즈에 매치하는지를 결정할 수 있다. 또한, 필요한 경우, 입술 동기화, 및/또는 위치 동기화의 식별과 같은 추가적인 식별 레벨들이 시도될 수 있다.

성공적인 경우(succ), 서비스 에이전트(206)에 대해, 프로세스(300)는 블록(308)으로부터 블록(306)으로 되돌아가서 적합한 식별 레벨들이 이제 준비되었음을 확인할 수 있다. 전술된 바와 같이, 요구되는 식별 레벨이 이제 준비되었다는 확인 시에, 서비스 에이전트(206)에 대해, 프로세스(300)는 블록(306)으로부터 블록(310)으로 진행할 수 있다. 블록(310)에서, 서비스 에이전트(206)는 요청된 서비스를 제공하거나 용이하게 할 수 있다. 이후, 서비스 에이전트(206)에 대해, 프로세스(300)는 블록(314)으로 진행하고, 블록(304)으로 되돌아가서, 서비스 요청들을 기다리는 다른 서비스 에이전트들(206)을 재합류(rejoin)시킬 수 있다. 블록(304)으로부터, 프로세스(300)는 전술된 바와 같이 계속될 수 있다.

한편, 블록(308)에서, 프로세스(300)가 요청된 서비스를 제공하기 위해 필수적인 추가 식별 레벨(들)을 획득하는 데 실패한 경우, 서비스 에이전트(206)에 대해, 프로세스(300)는 블록(312)으로 진행할 수 있다. 블록(312)에서, 서비스 에이전트(206)는 요청된 서비스를 거절하고, 블록(304)으로 되돌아갈 수 있다. 다시, 블록(304)으로부터, 프로세스(300)는 전술된 바와 같이 계속할 수 있다.

다시 블록(304)에서, 결정의 결과가 서비스가 요청되지 않았음을 나타내는 경우, 프로세스(300)의 종료가 요청되었는지를 결정하기 위한 또다른 결정이 이루어질 수 있다. 요청되지 않은 경우, 프로세스(300)는 블록(304)으로 되돌아가서, 서비스 요청을 기다릴 수 있다. 프로세스(300)의 종료가 요청된 경우, 프로세스(300)는 끝날 수 있다.

전술된 바와 같이, 실시예들에서, 서비스들은 소비, 전자상거래 및/또는 금융 서비스들을 위한 멀티미디어 콘텐츠의 맞춤형 제공을 포함할 수 있다. 예를 들어, 멀티미디어 콘텐츠의 맞춤형 제공을 위해, 요구된 레벨의 식별을 설정 시에, 멀티미디어 플레이어는 다음의 것을 포함하지만 이에 제한되지 않는 멀티미디어 표시를 적응시킬 수 있다:

- 식별된 사용자의 선호도를 자동으로 로딩하는 것

- 식별된 사용자의 선호 채널들 또는 마지막 시청 채널/영화로 스위칭하는 것

- 현재 대화의 더 양호한 이해를 위해 식별된 사용자와 셋톱 박스 사이의 대화 이력을 로딩하는 것

- 식별된 사용자에게 특정적인 경고들, 통지들 및 캘린더를 로딩하는 것

- 식별된 사용자의 시청 이력에 기초하여 채널들/콘텐츠를 추천하는 것

- 식별된 사용자를 특정적으로 타겟으로 하는 광고들을 디스플레이하는 것

- 식별된 사용자의 이메일들을 검색하는 것

- 식별된 사용자에 대해 필터링된 또는 식별된 사용자에 의해 구독된 뉴스를 디스플레이하는 것

- 더 많은 관련 정보를 푸시(push)하기 위해 식별된 사용자의 행동들을 분석하는 것

- 화상 전화의 화자를 식별하여 화자의 정보를 디스플레이하는 것

- 식별된 사용자로부터의 서비스 호출에 대한 응답을 맞춤화하는 것.

또다른 서비스 시나리오에서, 로그인을 요구하는 서비스는 다음과 같이 제공될 수 있다:

1) 사용자는 클라이언트 디바이스에게 "안녕"이라고 말함으로써 프로세싱을 시작할 수 있다.

2) 클라이언트 디바이스는 음성의 음성 생체측정(voice bio-metric)을 분석할 수 있고 등록된 사용자 생체측정 데이터베이스에서의 매치를 찾는다; 클라이언트 디바이스는 이후 식별된 사용자의 정보를 로딩할 수 있고, 음성으로, 예를 들어, "안녕하세요, David씨, 무엇을 도와드릴까요?"라고 말하여, 식별된 사용자에 응답한다.

3) 사용자 David는 이후 클라이언트 디바이스에게 "Youtube에 로그인해"라고 말할 수 있다.

4) 클라이언트 디바이스는 로그인이 추가적인 레벨의 식별을 요구한다고 결정하여, 음성으로, 예를 들어, "카메라에 얼굴을 대고 패스프레이즈를 말하세요"라고 말하여 응답할 수 있다.

5) 사용자 David는 이후 카메라에 얼굴을 대고 "나는 David야"라고 말할 수 있다.

6) 클라이언트 디바이스는 이후 사용자의 얼굴과 음성이 데이터베이스 내의 사용자의 정보와 매치함을 확인할 수 있고, David를 음성적으로 그리고 안면상으로 식별한 이후, 클라이언트 디바이스는 이후 David의 Youtube 로그인을 위한 사용자명 및 패스워드를 로딩하여 David를 그의 Youtube 계정에 로그인하도록 진행할 수 있다.

또다른 서비스 시나리오에서, 뱅킹 서비스와 같은 매우 높은 레벨의 식별을 요구하는 서비스가, 온라인 구매를 위해 자신의 은행 계좌로부터 돈을 이체하기를 원하는 사용자에게, 다음과 같이 제공될 수 있다:

- 사용자는, 초기 식별들을 통해, 자신의 은행 카드를 클라이언트 디바이스의 카메라에 갖다 대고 "안녕, 이것은 나의 은행 카드야"라고 말할 수 있다;

- 클라이언트 디바이스는 먼저 은행 카드 번호 및 은행명을 식별하고, 더 높은 레벨의 식별이 요구됨을 결정할 수 있다;

- 결정 시에, 클라이언트 디바이스는 "카메라를 얼굴에 대고 은행 패스프레이즈를 말하세요"라고 말함으로써 응답할 수 있다;

- 사용자는 이후 카메라에 얼굴을 댐으로써 응답하고, "나는 David이고 내 생일은 1980년 8월이야"라고 말할 수 있다.

- 그 응답으로, 음성 입력물(the substance of the voice input)을 추출해 내는 것에 더하여, 클라이언트 디바이스는:

a. 이미지 입력으로부터 보여지는 바와 같은 사용자의 입술 움직임이 음성 입력과 동기화되는지를 체크하고;

b. 음원으로서 인식된 사용자의 위치가 시각적 인식을 통해 인식된 사용자의 위치와 동일한지를 체크하고;

c. (비디오 레코딩 사기를 방지하기 위해) 사용자의 환경이 식별된 위치와 일치하는지를 체크하여 결정할 수 있다;

- 모든 추가적인 체크/식별들이 통과되었다는 확인 시에, 클라이언트 디바이스는 이후 사용자의 로그인 정보 및 음성 패스프레이즈를 은행 시스템에 송신하도록 진행할 수 있다;

- 또한, 은행 시스템이 성공적인 거래 결과를 리턴시킨 이후, 클라이언트 디바이스는 후속적으로 사용자에게 거래가 성공적이었음을 통지할 수 있다.

이제 도 3을 참조하면, 다양한 실시예들에 따라, 클라이언트 디바이스로서 사용하기에 적절한 예시적인 컴퓨터가 예시되어 있다. 도시된 바와 같이, 컴퓨터(400)는 하나 이상의 프로세서들 또는 프로세서 코어들(402) 및 시스템 메모리(404)를 포함할 수 있다. 청구항들을 포함하는 이 출원의 목적을 위해, 용어 "프로세서" 및 "프로세서 코어들"은, 문맥이 달리 명백하게 요구하지 않는 한, 유의어인 것으로 간주될 수 있다. 추가로, 컴퓨터(400)는 대용량 저장 디바이스들(406)(예컨대, 디스켓, 하드 드라이브, 컴팩트 디스크 판독 전용 메모리(CD-ROM) 등), 입력/출력 디바이스들(408)(예컨대, 디스플레이, 키보드, 커서 제어기 등) 및 통신 인터페이스들(410)(예컨대, 네트워크 인터페이스 카드, 모뎀 등)을 포함할 수 있다. 엘리먼트들은 하나 이상의 버스들을 나타낼 수 있는 시스템 버스(412)를 통해 서로 커플링될 수 있다. 다수의 버스들의 경우, 이들은 하나 이상의 버스 브리지들(미도시됨)에 의해 브리징될 수 있다.

이들 엘리먼트들 각각은 당해 기술분야에 공지되어 있는 그의 통상적인 기능들을 수행할 수 있다. 특히, 시스템 메모리(404) 및 대용량 저장 디바이스들(406)은 전술된 클라이언트 디바이스들(102)에 의해 도 2의 방법(300)을 실시하는 것과 연관된 동작들을 구현하는 프로그래밍 명령들의 작업 복제본(working copy) 및 영구 복제본(permanent copy)을 저장하기 위해 사용될 수 있다. 다양한 엘리먼트들은, 프로세서(들)(402)에 의해 지원되는 어셈블러 명령들 또는 이러한 명령들로 컴파일링될 수 있는, 예를 들어 C와 같은 하이-레벨 언어들에 의해 구현될 수 있다.

프로그래밍 명령들의 영구 복제본은 예를 들어, 컴팩트 디스크(CD)와 같은 분배 매체(미도시됨)를 통해, 또는 (분배 서버(미도시됨)로부터) 통신 인터페이스(410)를 통해, 공장에서 또는 필드에서, 영구 저장 디바이스들(406)에 배치될 수 있다. 즉, 에이전트 프로그램의 구현을 가지는 하나 이상의 분배 매체가 에이전트를 분배하고 다양한 컴퓨팅 디바이스들을 프로그래밍 하기 위해 사용될 수 있다.

도 4는 다양한 실시예들에 따라, 전술된 바와 같이, 도 2의 방법(300)과 연관된 동작들 모두 또는 선택된 동작들을 실시하도록 구성된 명령들을 가지는 예시적인 비-일시적 컴퓨터-판독가능한 저장 매체를 예시한다. 예시된 바와 같이, 비-일시적 컴퓨터-판독가능한 저장 매체(502)는 다수의 프로그래밍 명령들(504)을 포함할 수 있다. 프로그래밍 명령들(504)은 디바이스, 예를 들어, 컴퓨터(400)가, 프로그래밍 명령들의 실행에 응답하여, 예를 들어, 도 2의 프로세스(300)의 다양한 동작들, 예를 들어, 사용자 식별들의 하나 이상의 레벨들을 설정하는 것, 및 설정된 음성/안면 식별의 레벨에 기초하여 서비스들을 제공하는 것/용이하게 하는 것과 연관되어 수행된 동작들(이것으로 제한되지 않음)을 수행하게 할 수 있도록 구성될 수 있다.

다시 도 3을 참조하면, 일 실시예에 대해, 프로세서들(402) 중 적어도 하나가 도 2의 프로세스의 양태들을 실시하도록 구성된 계산 로직(422)과 함께 패키지화될 수 있다. 일 실시예에 대해, 프로세서들(402) 중 적어도 하나는 시스템 인 패키지(SiP; System in Package)를 형성하기 위해 도 3의 프로세스의 양태들을 실시하도록 구성된 계산 로직(422)과 함께 패키지화될 수 있다. 일 실시예에 대해, 프로세서들(402) 중 적어도 하나는 도 3의 프로세스의 양태들을 실시하도록 구성된 계산 로직(422)과 동일한 다이 상에 집적될 수 있다. 일 실시예에 대해, 프로세서들(402) 중 적어도 하나는 시스템 온 칩(SoC; System on Chip)을 형성하기 위해 도 3의 프로세스의 양태들을 실시하도록 구성된 계산 로직(422)과 함께 패키지화될 수 있다. 적어도 일 실시예에 대해, SoC는 예를 들어, 컴퓨팅 태블릿에서 이용될 수 있지만 이에 제한되지는 않는다.

후속하는 문단들은 다양한 실시예들의 예들을 기술한다.

예 1은 개별적으로 또는 서로 협력하여, 복수의 식별 레벨들에서 장치의 사용자의 식별을 제공하도록 구성된 음성 인식 엔진 및 안면 인식 엔진을 가지는 장치일 수 있다. 장치는 음성 인식 엔진 및 안면 인식 엔진 중 적어도 하나와 커플링되고, 사용자가 적어도 서비스를 수신하기 위해 요구되는 식별 레벨에서 식별된 이후 사용자에게 서비스를 제공하도록 구성된 서비스 에이전트를 더 포함할 수 있다.

예 2는 예 1일 수 있고, 여기서 음성 인식 엔진은 음성 입력에 응답하여 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하고, 안면 인식 엔진과 협력하여 제1 식별 레벨보다 더 높은 식별 레벨인 제2 식별 레벨에서 사용자의 식별을 제공하여, 사용자가 적어도 제2 식별 레벨을 요구하는 서비스를 받을 수 있게 하도록 구성된다.

예 3은 예 2일 수 있고, 여기서 음성 인식 엔진은 음성 입력의 복수의 음성 템플릿들과의 비교를 통해, 음성 입력에 응답하여 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하도록 구성된다.

예 4는 예 3일 수 있고, 여기서 음성 인식 엔진은 주파수 추정 기법, 마르코프 모델 기법, 가우시안 혼합 모델 기법, 패턴 매칭 기법, 신경망 기법, 행렬 표현 기법, 벡터 양자화 기법 또는 결정 트리 기법 중 하나를 사용하여 음성 입력을 복수의 음성 템플릿들과 비교하도록 구성된다.

예 5는 예 2일 수 있고, 여기서 음성 입력은 제1 음성 입력이고, 음성 인식 엔진은 제1 음성 입력을 복수의 음성 템플릿들과 비교함으로써, 제1 음성 입력에 응답하여 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하도록 구성되고; 음성 인식 엔진은 제2 음성 입력에 응답하여 제2 식별 레벨보다 더 높은 식별 레벨인 제3 식별 레벨에서 사용자의 식별을 개별적으로 제공하여, 사용자가 적어도 제3 식별 레벨을 요구하는 서비스를 받을 수 있게 하도록 추가로 구성된다.

예 5는 예 2일 수 있고, 여기서 음성 입력은 제1 음성 입력이고, 음성 인식 엔진은, 제1 음성 입력을 복수의 음성 템플릿들과 비교함으로써, 제1 음성 입력에 응답하여 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하도록 구성되고; 음성 인식 엔진은 제2 음성 입력에 응답하여 제2 식별 레벨보다 더 높은 식별 레벨인 제3 식별 레벨에서 사용자의 식별을 개별적으로 제공하여, 사용자가 적어도 제3 식별 레벨을 요구하는 서비스를 받을 수 있게 하도록 추가로 구성된다.

예 6은 예 5일 수 있고, 여기서 음성 인식 엔진은 제2 음성 입력의 시맨틱 콘텐츠를 결정하고, 제2 음성 입력의 시맨틱 콘텐츠를 시맨틱 기준과 비교하도록 구성된다.

예 7은 예 6일 수 있고, 여기서 시맨틱 기준은 패스프레이즈이다.

예 8은 예 1일 수 있고, 여기서 안면 인식 엔진은 이미지 입력에 응답하여 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하고, 음성 인식 엔진과 협력하여 제1 식별 레벨보다 더 높은 식별 레벨인 제2 식별 레벨에서 사용자의 식별을 제공하여, 사용자가 적어도 제2 식별 레벨을 요구하는 서비스를 받을 수 있게 하도록 구성된다.

예 9는 예 8일 수 있고, 안면 인식 엔진은 이미지 입력의 복수의 기준 이미지들과의 비교를 통해 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하도록 구성된다.

예 10은 예 9일 수 있고, 여기서 안면 인식 엔진은 적어도 눈, 코, 광대뼈, 또는 턱의 상대적 위치, 크기 또는 형상의 분석을 통해 이미지 입력을 복수의 기준 이미지들과 비교하도록 구성된다.

예 11은 예 1-10 중 어느 하나일 수 있으며, 여기서 서비스 에이전트는 음성 인식 엔진과 안면 인식 엔진 모두에 의한 사용자의 제1 및 제2 식별들을 포함하는 식별 레벨을 요구하는 맞춤형 멀티미디어 표시 서비스를 제공하도록 구성된다.

예 12는 예 1-10 중 어느 하나일 수 있고, 여기서 서비스 에이전트는 제1 음성 입력 및 이미지 입력에 대응적으로 기초한 음성 인식 엔진과 안면 인식 엔진 모두에 의한 사용자의 제1 및 제2 식별들, 및 제2 음성 입력의 시맨틱 콘텐츠에 기초한 음성 인식 엔진에 의한 제3 식별을 포함하는 식별 레벨을 요구하는, 온라인 서비스에 대한 액세스를 용이하게 하도록 구성된다.

예 13은 예 1-10 중 어느 하나일 수 있고, 여기서, 서비스 에이전트는 제1 음성 입력 및 이미지 입력에 대응적으로 기초한 음성 인식 엔진과 안면 인식 엔진 모두에 의한 사용자의 제1 및 제2 식별들, 제2 음성 입력의 시맨틱 콘텐츠에 기초한 음성 인식 엔진에 의한 제3 식별, 및 음성 인식 엔진 및 안면 인식 엔진 모두를 사용하는 적어도 제4 식별을 포함하는 식별 레벨을 요구하는, 온라인 서비스에 대한 액세스를 용이하게 하도록 구성된다.

예 14는 예 13일 수 있고, 제4 식별은 음성 인식 엔진에 대한 실시간 음성 입력과, 안면 인식 엔진에 대한 실시간 이미지 입력에서의 입술 움직임들의 동기화를 식별하는 것을 포함한다.

예 15는 예 13일 수 있고, 여기서 제4 식별은 음성 인식 엔진에 음성 입력을 제공하는 음원의 위치와, 안면 인식 엔진에 대한 이미지 입력에 기초하여 결정된 사용자의 위치의 동기화를 식별하는 것을 포함한다.

예 16은 예 13일 수 있고, 여기서 온라인 서비스는 온라인 금융 서비스를 포함한다.

예 17은 예 1-10 중 어느 하나일 수 있고, 여기서 장치는 텔레비전 세트, 셋톱 박스, 스마트폰, 컴퓨팅 태블릿, 울트라북, 랩톱 컴퓨터 또는 데스크톱 컴퓨터 중 선택된 것이다.

예 18은 서비스를 제공하는 방법일 수 있다. 이 방법은, 컴퓨팅 디바이스에 의해, 개별적으로 또는 서로 협력하여, 음성 인식 엔진, 안면 인식 엔진 또는 둘 모두를 통해, 복수의 식별 레벨들에서 컴퓨팅 디바이스의 사용자의 식별을 제공하는 단계; 및 사용자가 적어도 서비스를 수신하기 위해 요구되는 식별 레벨에서 식별된 이후, 컴퓨팅 디바이스에 의해 사용자에게 서비스를 제공하는 단계를 포함할 수 있다.

예 19는 예 18일 수 있고, 여기서 사용자의 식별을 제공하는 단계는 음성 인식 엔진이 음성 입력에 응답하여 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하는 단계, 및 안면 인식 엔진과 협력하여 제1 식별 레벨보다 더 높은 식별 레벨인 제2 식별 레벨에서 사용자의 식별을 제공하여, 사용자가 적어도 제2 식별 레벨을 요구하는 서비스를 받을 수 있게 하는 단계를 포함한다.

예 20은 예 19일 수 있고, 여기서 음성 인식 엔진이 사용자의 식별을 개별적으로 제공하는 단계는 음성 인식 엔진이 음성 입력을 복수의 음성 템플릿들과 비교함으로써, 음성 입력에 응답하여 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하는 단계를 포함한다.

예 21은 예 20일 수 있고, 여기서 음성 인식 엔진이 음성 입력을 복수의 음성 템플릿들과 비교하는 단계는 음성 인식 엔진이 주파수 추정 기법, 마르코프 모델 기법, 가우시안 혼합 모델 기법, 패턴 매칭 기법, 신경망 기법, 행렬 표현 기법, 벡터 양자화 기법 또는 결정 트리 기법 중 하나를 사용하여 음성 입력을 복수의 음성 템플릿들과 비교하는 단계를 포함한다.

예 22는 예 19일 수 있고, 여기서 음성 입력은 제1 음성 입력이고, 음성 인식 엔진은 제1 음성 입력을 복수의 음성 템플릿들과 비교함으로써 제1 음성 입력에 응답하여 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하고; 음성 인식 엔진은 추가로 제2 음성 입력에 응답하여 제2 식별 레벨보다 더 높은 식별 레벨인 제3 식별 레벨에서 사용자의 식별을 개별적으로 제공하여, 사용자가 적어도 제3 식별 레벨을 요구하는 서비스를 받을 수 있게 한다.

예 23은 예 22일 수 있고, 여기서 음성 인식 엔진이 제2 음성 입력에 응답하여 제3 식별 레벨에서 사용자의 식별을 개별적으로 제공하는 것은, 음성 인식 엔진이 제2 음성 입력의 시맨틱 콘텐츠를 결정하고 제2 음성 입력의 시맨틱 콘텐츠를 시맨틱 기준과 비교하는 것을 포함한다.

예 24는 예 23일 수 있고, 여기서 시맨틱 기준은 패스프레이즈이다.

예 25는 예 18일 수 있고, 여기서 안면 인식 엔진을 통해 복수의 식별 레벨들에서 컴퓨팅 디바이스의 사용자의 식별을 제공하는 것은, 안면 인식 엔진이 이미지 입력에 응답하여 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하는 것, 및 음성 인식 엔진과 협력하여 제1 식별 레벨보다 더 높은 식별 레벨인 제2 식별 레벨에서 사용자의 식별을 제공하여, 사용자가 적어도 제2 식별 레벨을 요구하는 서비스를 받을 수 있게 하는 것을 포함한다.

예 26은 예 25일 수 있고, 여기서 안면 인식 엔진이 사용자의 식별을 개별적으로 제공하는 것은 안면 인식 엔진이 이미지 입력을 복수의 기준 이미지들과 비교함으로써 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하는 것을 포함한다.

예 27은 예 26일 수 있고, 여기서 안면 인식 엔진이 이미지 입력을 복수의 기준 이미지들과 비교함으로써 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하는 것은 안면 인식 엔진이 적어도 눈, 코, 광대뼈, 또는 턱의 상대적 위치, 크기 또는 형상의 분석을 통해 이미지 입력을 복수의 기준 이미지들과 비교하는 것을 포함한다.

예 28은 예 18-27 중 어느 하나일 수 있고, 여기서 사용자가 적어도 서비스를 수신하기 위해 요구되는 식별 레벨에서 식별된 이후, 사용자에게 서비스를 제공하는 단계는, 음성 인식 엔진과 안면 인식 엔진 모두에 의한 사용자의 제1 및 제2 식별들을 포함하는 식별 레벨을 요구하는 맞춤형 멀티미디어 표시 서비스를 제공하는 단계를 포함한다.

예 29는 예 18-27 중 어느 하나일 수 있고, 여기서 사용자가 적어도 서비스를 수신하기 위해 요구되는 식별 레벨에서 식별된 이후, 사용자에게 서비스를 제공하는 단계는, 제1 음성 입력 및 이미지 입력에 대응적으로 기초한 음성 인식 엔진 및 안면 인식 엔진 모두에 의한 사용자의 제1 및 제2 식별들, 및 제2 음성 입력의 시맨틱 콘텐츠에 기초한 음성 인식 엔진에 의한 제3 식별을 포함하는 식별 레벨을 요구하는, 온라인 서비스에 대한 액세스를 용이하게 하는 단계를 포함한다.

예 30은 예 18-27 중 어느 하나일 수 있고, 여기서 사용자가 적어도 서비스를 수신하기 위해 요구되는 식별 레벨에서 식별된 이후, 사용자에게 서비스를 제공하는 것은, 제1 음성 입력 및 이미지 입력에 대응적으로 기초한 음성 인식 엔진 및 안면 인식 엔진 모두에 의한 사용자의 제1 및 제2 식별들, 제2 음성 입력의 시맨틱 콘텐츠에 기초한 음성 인식 엔진에 의한 제3 식별, 및 음성 인식 엔진과 안면 인식 엔진 모두를 사용하는 적어도 제4 식별을 포함하는 식별 레벨을 요구하는 온라인 서비스에 대한 액세스를 용이하게 하는 것을 포함한다.

예 31은 예 30일 수 있고, 여기서 제4 식별은 음성 인식 엔진에 대한 실시간 음성 입력과, 안면 인식 엔진에 대한 실시간 이미지 입력에서의 입술 움직임들의 동기화를 식별하는 것을 포함한다.

예 32는 예 30일 수 있고, 여기서 제4 식별은 음성 인식 엔진에 음성 입력을 제공하는 음원의 위치와, 안면 인식 엔진에 대한 이미지 입력에 기초하여 결정된 사용자의 위치의 동기화를 식별하는 것을 포함한다.

예 33은 예 30일 수 있고, 여기서 온라인 서비스는 온라인 금융 서비스를 포함한다.

예 34는 클라이언트 디바이스가, 복수의 명령들의 실행에 응답하여, 예 18-33 중 어느 하나의 방법을 수행하게 하도록 구성된 복수의 명령들을 포함하는 적어도 하나의 저장 매체일 수 있다.

특정 실시예들이 설명의 목적으로 본원에 예시되고 기재되었지만, 동일한 목적을 달성하도록 계산된 광범위한 대안적 및/또는 등가적 실시예들 또는 구현예들이 본 개시내용의 범위로부터 벗어나지 않고 도시되고 기재된 실시예들에 대해 대체될 수 있다. 이 출원은 본원에서 논의된 실시예들의 임의의 적응들 또는 변경들을 커버하도록 의도된다. 따라서, 본원에 기재된 실시예들이 오직 청구항들에 의해서만 제한된다는 점이 명백하게 의도된다.

개시내용이 "하나의(a)" 또는 "제1" 엘리먼트 또는 그 등가물을 인용한 경우, 이러한 개시내용은 둘 이상의 이러한 엘리먼트들을 요구하지도 배제시키지도 않고, 하나 이상의 이러한 엘리먼트들을 포함한다. 또한, 식별된 엘리먼트들에 대한 서수 표시자들(예를 들어, 제1, 제2 또는 제3)은 엘리먼트들을 구별하기 위해 사용되며, 이러한 엘리먼트들의 요구되거나 제한된 개수를 나타내거나 내포하지 않으며, 또한 이들은 달리 구체적으로 언급되지 않는 한 이러한 엘리먼트들의 특정 위치 또는 순서를 나타내지도 않는다.

Claims

장치로서,
개별적으로 또는 서로 협력하여, 복수의 식별 레벨들에서 장치의 사용자의 식별을 제공하도록 구성된 음성 인식 엔진 및 안면 인식 엔진; 및
상기 음성 인식 엔진 및 상기 안면 인식 엔진 중 적어도 하나와 커플링되며, 상기 사용자가 적어도 서비스를 수신하기 위해 요구되는 식별 레벨에서 식별된 이후, 상기 사용자에게 상기 서비스를 제공하도록 구성되는 서비스 에이전트
를 포함하는 장치.
제1항에 있어서,
상기 음성 인식 엔진은 음성 입력에 응답하여 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하고, 상기 안면 인식 엔진과 협력하여 상기 제1 식별 레벨보다 더 높은 식별 레벨인 제2 식별 레벨에서 상기 사용자의 식별을 제공하여, 상기 사용자가 적어도 상기 제2 식별 레벨을 요구하는 서비스를 받을 수 있게 하도록 구성되는 장치.
제2항에 있어서,
상기 음성 인식 엔진은, 상기 음성 입력과 복수의 음성 템플릿들의 비교를 통해, 상기 음성 입력에 응답하여 상기 제1 식별 레벨에서 상기 사용자의 식별을 개별적으로 제공하도록 구성되는 장치.
제3항에 있어서,
상기 음성 인식 엔진은 주파수 추정 기법(frequency estimation technique), 마르코프 모델 기법(Markov model technique), 가우시안 혼합 모델 기법(Gaussian mixture model technique), 패턴 매칭 기법(pattern matching technique), 신경망 기법(neural network technique), 행렬 표현 기법(matrix representation technique), 벡터 양자화 기법(vector quantization technique) 또는 결정 트리 기법(decision tree technique) 중 하나를 사용하여 상기 음성 입력을 상기 복수의 음성 템플릿들과 비교하도록 구성되는 장치.
제2항에 있어서,
상기 음성 입력은 제1 음성 입력이고, 상기 음성 인식 엔진은 상기 제1 음성 입력을 복수의 음성 템플릿들과 비교함으로써, 상기 제1 음성 입력에 응답하여 상기 제1 식별 레벨에서 상기 사용자의 식별을 개별적으로 제공하도록 구성되고; 상기 음성 인식 엔진은 제2 음성 입력에 응답하여 상기 제2 식별 레벨보다 더 높은 식별 레벨인 제3 식별 레벨에서 상기 사용자의 식별을 개별적으로 제공하여, 상기 사용자가 적어도 상기 제3 식별 레벨을 요구하는 서비스를 받을 수 있게 하도록 추가로 구성되는 장치.
제5항에 있어서,
상기 음성 인식 엔진은 상기 제2 음성 입력의 시맨틱 콘텐츠(semantic content)를 결정하고, 상기 제2 음성 입력의 상기 시맨틱 콘텐츠를 시맨틱 기준과 비교하도록 구성되는 장치.
제6항에 있어서,
상기 시맨틱 기준은 패스프레이즈(passphrase)인 장치.
제1항에 있어서,
상기 안면 인식 엔진은 이미지 입력에 응답하여 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하고, 상기 음성 인식 엔진과 협력하여 상기 제1 식별 레벨보다 더 높은 식별 레벨인 제2 식별 레벨에서 상기 사용자의 식별을 제공하여, 상기 사용자가 적어도 상기 제2 식별 레벨을 요구하는 서비스를 받을 수 있게 하도록 구성되는 장치.
제8항에 있어서,
상기 안면 인식 엔진은 상기 이미지 입력과 복수의 기준 이미지들의 비교를 통해 상기 제1 식별 레벨에서 상기 사용자의 식별을 개별적으로 제공하도록 구성되는 장치.
제9항에 있어서,
상기 안면 인식 엔진은 적어도 눈, 코, 광대뼈 또는 턱의 상대적 위치들, 크기들 또는 형상들의 분석을 통해 상기 이미지 입력을 상기 복수의 기준 이미지들과 비교하도록 구성되는 장치.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 서비스 에이전트는 상기 음성 인식 엔진과 상기 안면 인식 엔진 모두에 의한 상기 사용자의 제1 및 제2 식별들을 포함하는 식별 레벨을 요구하는 맞춤형 멀티미디어 표시 서비스(customized multi-media presentation service)를 제공하도록 구성되는 장치.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 서비스 에이전트는 제1 음성 입력 및 이미지 입력에 대응적으로 기초한 상기 음성 인식 엔진과 상기 안면 인식 엔진 모두에 의한 상기 사용자의 제1 및 제2 식별들, 및 제2 음성 입력의 시맨틱 콘텐츠에 기초한 상기 음성 인식 엔진에 의한 제3 식별을 포함하는 식별 레벨을 요구하는, 온라인 서비스에 대한 액세스를 용이하게 하도록 구성되는 장치.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 서비스 에이전트는 제1 음석 입력 및 이미지 입력에 대응적으로 기초한 상기 음성 인식 엔진과 상기 안면 인식 엔진 모두에 의한 상기 사용자의 제1 및 제2 식별들, 제2 음성 입력의 시맨틱 콘텐츠에 기초한 상기 음성 인식 엔진에 의한 제3 식별, 및 상기 음성 인식 엔진과 상기 안면 인식 엔진 모두를 사용하는 적어도 제4 식별을 포함하는 식별 레벨을 요구하는, 온라인 서비스에 대한 액세스를 용이하게 하도록 구성되는 장치.
제13항에 있어서,
상기 제4 식별은, 상기 음성 인식 엔진에 대한 실시간 음성 입력과, 상기 안면 인식 엔진에 대한 실시간 이미지 입력에서의 입술 움직임들(lip movements)의 동기화를 식별하는 것을 포함하는 장치.
제13항에 있어서,
상기 제4 식별은 상기 음성 인식 엔진에 음성 입력을 제공하는 음원의 위치와, 상기 안면 인식 엔진에 대한 이미지 입력에 기초하여 결정된 상기 사용자의 위치의 동기화를 식별하는 것을 포함하는 장치.
서비스를 제공하기 위한 컴퓨터-구현 방법으로서,
컴퓨팅 디바이스에 의해, 음성 인식 엔진, 안면 인식 엔진, 또는 둘 모두를 통해, 개별적으로 또는 서로 협력하여, 복수의 식별 레벨들에서 상기 컴퓨팅 디바이스의 사용자의 식별을 제공하는 단계; 및
상기 컴퓨팅 디바이스에 의해, 상기 사용자가 적어도 서비스를 수신하기 위해 요구되는 식별 레벨에서 식별된 이후, 상기 사용자에게 상기 서비스를 제공하는 단계
를 포함하는 방법.
제16항에 있어서,
사용자의 식별을 제공하는 단계는 상기 음성 인식 엔진이 음성 입력에 응답하여 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하는 단계, 및 상기 안면 인식 엔진과 협력하여 상기 제1 식별 레벨보다 더 높은 식별 레벨인 제2 식별 레벨에서 상기 사용자의 식별을 제공하여, 상기 사용자가 적어도 상기 제2 식별 레벨을 요구하는 서비스를 받을 수 있게 하는 단계를 포함하는 방법.
제16항에 있어서,
상기 음성 입력은 제1 음성 입력이고, 상기 음성 인식 엔진은 상기 제1 음성 입력을 복수의 음성 템플릿들과 비교함으로써 상기 제1 음성 입력에 응답하여 상기 제1 식별 레벨에서 상기 사용자의 식별을 개별적으로 제공하고; 상기 음성 인식 엔진은 추가로 제2 음성 입력에 응답하여 상기 제2 식별 레벨보다 더 높은 식별 레벨인 제3 식별 레벨에서 상기 사용자의 식별을 개별적으로 제공하여, 상기 사용자가 적어도 상기 제3 식별 레벨을 요구하는 서비스를 받을 수 있게 하는 방법.
제18항에 있어서,
상기 음성 인식 엔진이 제2 음성 입력에 응답하여 제3 식별 레벨에서 상기 사용자의 식별을 개별적으로 제공하는 것은 상기 음성 인식 엔진이 상기 제2 음성 입력의 시맨틱 콘텐츠를 결정하고 상기 제2 음성 입력의 상기 시맨틱 콘텐츠를 시맨틱 기준과 비교하는 것을 포함하는 방법.
제16항에 있어서,
안면 인식 엔진을 통해, 복수의 식별 레벨들에서 상기 컴퓨팅 디바이스의 사용자의 식별을 제공하는 것은, 상기 안면 인식 엔진이 이미지 입력에 응답하여 제1 식별 레벨에서 사용자의 식별을 개별적으로 제공하는 것, 및 상기 음성 인식 엔진과 협력하여 상기 제1 식별 레벨보다 더 높은 식별 레벨인 제2 식별 레벨에서 상기 사용자의 식별을 제공하여, 상기 사용자가 적어도 상기 제2 식별 레벨을 요구하는 서비스를 받을 수 있게 하는 것을 포함하는 방법.
제16항 내지 제20항 중 어느 한 항에 있어서,
상기 사용자가 적어도 서비스를 수신하기 위해 요구되는 식별 레벨에서 식별된 이후 상기 사용자에게 상기 서비스를 제공하는 단계는, 상기 음성 인식 엔진과 상기 안면 인식 엔진 모두에 의한 상기 사용자의 제1 및 제2 식별들을 포함하는 식별 레벨을 요구하는 맞춤형 멀티미디어 표시 서비스를 제공하는 단계를 포함하는 방법.
제16항 내지 제20항 중 어느 한 항에 있어서,
상기 사용자가 적어도 서비스를 수신하기 위해 요구되는 식별 레벨에서 식별된 이후 상기 사용자에게 상기 서비스를 제공하는 단계는, 제1 음성 입력 및 이미지 입력에 대응적으로 기초한 상기 음성 인식 엔진과 상기 안면 인식 엔진 모두에 의한 상기 사용자의 제1 및 제2 식별들, 및 제2 음성 입력의 시맨틱 콘텐츠에 기초한 상기 음성 인식 엔진에 의한 제3 식별을 포함하는 식별 레벨을 요구하는, 온라인 서비스에 대한 액세스를 용이하게 하는 단계를 포함하는 방법.
제16항 내지 제20항 중 어느 한 항에 있어서,
상기 사용자가 적어도 서비스를 수신하기 위해 요구되는 식별 레벨에서 식별된 이후 상기 사용자에게 상기 서비스를 제공하는 단계는, 제1 음성 입력 및 이미지 입력에 대응적으로 기초한 상기 음성 인식 엔진과 상기 안면 인식 엔진 모두에 의한 상기 사용자의 제1 및 제2 식별들, 제2 음성 입력의 시맨틱 콘텐츠에 기초한 상기 음성 인식 엔진에 의한 제3 식별, 및 상기 음성 인식 엔진과 상기 안면 인식 엔진 모두를 사용하는 적어도 제4 식별을 포함하는 식별 레벨을 요구하는, 온라인 서비스에 대한 액세스를 용이하게 하는 단계를 포함하는 방법.
제23항에 있어서,
상기 제4 식별은 상기 음성 인식 엔진에 대한 실시간 음성 입력과, 상기 안면 인식 엔진에 대한 실시간 이미지 입력에서의 입술 움직임들의 동기화를 식별하는 것을 포함하는 방법.
제23항에 있어서,
상기 제4 식별은 상기 음성 인식 엔진에 음성 입력을 제공하는 음원의 위치와, 상기 안면 인식 엔진에 대한 이미지 입력에 기초하여 결정된 상기 사용자의 위치의 동기화를 식별하는 것을 포함하는 방법.
클라이언트 디바이스가 복수의 명령들의 실행에 응답하여 제18항 내지 제25항 중 어느 한 항의 방법을 수행하게 하도록 구성되는, 상기 명령들을 포함하는 적어도 하나의 저장 매체.