KR102607766B1

KR102607766B1 - 동적 식별 인증

Info

Publication number: KR102607766B1
Application number: KR1020237002131A
Authority: KR
Inventors: 데이비드 맨드로빅; 메나헴 코렌; 리오르 겔베르그; 켄 코헨; 모르-아비 아주라이; 오하드 볼보비치
Original assignee: 라모트 앳 텔-아비브 유니버시티 리미티드
Priority date: 2020-08-20
Filing date: 2021-07-30
Publication date: 2023-11-29
Also published as: JP2024059900A; EP4200725A1; KR20230018529A; WO2022038591A1; KR20230164240A; JP2023535231A; US20230306094A1; CN116635910A

Abstract

사람을 식별하는 방법으로서, 상기 방법은: 사람이 참여하는 액티비티 동안에 복수의 해부학적 표지점의 시공간적 궤적을 정의하는 상기 액티비티와 관련된 각각의 해부학적 표지점에 대한 시공간적 데이터를 획득하는 단계; 상기 획득된 시공간적 데이터를 시공간적 그래프(ST-그래프)로 모델링하는 단계; 및 상기 사람에 대한 식별을 제공하도록 적어도 하나의 비-로컬 그래프 컨벌루션 신경망(NLGCN: non-local graph convolution neural network)을 사용하여 상기 ST-그래프를 처리하는 단계;를 포함한다.

Description

동적 식별 인증

본 발명의 실시예는, 생체인식 인증의 개인 식별을 제공하기 위한 방법 및 장치에 관한 것이다.

계속 증가하는 서비스의 목록에는, 서비스에 대한 사용자 억세스를 인증하고 인가하도록, 종래에 다중-인자 인증 절차(MFA: multi-factor authentication procedure)로 지칭된 인증 절차가 필요하다. MFA 절차에 있어서, 사용자는 복수의 카테고리의 요청(challenges) 중 각각의 요청에 대한 적당한 응답을 제공하도록 요청된다. 요청 카테고리는 "인증 인자(authentication factors)"로 참조된다. 통상의 MFA는 사용자가 3개의 인증 인자 중 적어도 2개의 인자에 정확하게 응답하도록 요청되는 2-인자 인증(2FA: two-factor authentication)으로 참조되고, 상기 3개의 인자는, 사용자가 알고 있어야 하는 것을 테스트하는 지식 인자(예로서, 패스워드); 사용자가 가질 것으로 예상되는 것의 제출을 필요하는 소유 인자(예로서, 신용카드나 스마트폰); 및 사용자가 사용자를 특정짓는 것을 제출하는 것을 필요로 하는 내재적 인자(예로서, 지문, 성문(voiceprint), 또는 홍채 스캔과 같은 생체인식 특징)를 포함한다.

그러나, 레가시(legacy) 인증 기술은, 현대 시민이 정기적으로 참여하는 액티비티(activity)의 매트릭스(matrix)의 증가하는 복잡성과 상호의존성에 의해 요구되는 사용의 용이성과 인증 품질을 제공하는데 어려움에 직면하고 있는 것을 나타내고 있다. 예로서, 레가시 MFA 구성은, 오픈 뱅킹 계획(initiative)에서 고객, 은행, 및 제3자 공급자(TPP: third party providers)를 통합하도록 공표된 개정된 EPSD2(European Payment Services Directive)의 강력한 고객 인증(SCA: Strong Customer Authentication) 사양을 만족하는데 어려움을 겪고 있는 것으로 보인다. SCA의 실행은 두번 지연되었다. 최초 2019년 9월에 설립 예정인, 기관은 2021년 3월 14일로 연기되었고, 이후, 현재 예정된 2021년 9월 14일의 마감일로 다시 연기되었다.

본 발명의 일 실시예의 특징은, 사람이 액티비티를 실행하는 방식의 특이성에 기초하여 사람을 식별하기 위한 동적 식별(DYNAMIDE: dynamic identification) 방법으로 참조될 수 있거나, 또는 간단히 DYNAMIDE으로 참조될 수 있는 방법을 제공하는 것에 관한 것이다. 본 발명의 실시예에 따라, DYNAMIDE은 해부학적 표지점을 식별하는 것을 포함하고, 상기 해부학적 표지점은 액티비티 기점(AFIDs: activitiy fiducials)으로 선택적으로 여겨질 수 있고, 상기 액티비티 기점은 사람이 실행하는 액티비티 동안의 다양한 모션의 정도나 부족을 나타내고, 상기 액티비티의 실행 동안의 상기 액티비티의 시공간적 궤적이 상기 액티비티를 식별하도록 사용될 수 있다. DYNAMIDE는 액티비티를 실행하는 개인에 의해 액티비티를 구별하고 액티비티를 실행하는 특정 개인을 식별하는데 유리한 궤적의 특징을 결정하도록 궤적을 처리하는 것을 포함한다.

액티비티를 실행하는 개인에 의해 액티비티를 구별할 수 있는 액티비티의 특징은 매우 미묘할 수 있고, 상기 액티비티와 관련된 AFID 궤적은 실질적으로 섬세하고 직관적이지 않은 혼선을 나타낼 수 있다. 이 결과, 액티비티의 한 시공간적 궤적의 특징과 무관함을 직관적으로 나타낼 수 있는 액티비티의 다른 한 시공간적 궤적의 특징은 실제 액티비티를 실행하는 개인에 특이할 수 있고 상기 개인을 식별하기 위한 기초를 제공할 수 있다. 식별을 위해 궤적에 의해 나타나는 특이성을 발견하고 사용하기 위해 유리한 시공간적 해상도를 제공하는 본 발명의 일 실시예에 따라, 궤적의 공간 및/또는 시간 처리는 비로컬일 수 있고 AFID 궤적에 의해 나타난 모션에 대해 추정된 다수의 선험적 처리 제약(apriori processing constraints)이 유리하게 제한될 수 있다.

일 실시예에 따라, 개인이 실행할 수 있는 주어진 액티비티에 기초한 특정 개인을 식별하는 것은, 주어진 액티비티를 실행하는 개인의 일련의 이미지를 획득하는 것과, 주어진 액티비티와 관련된 이미지 AFIDs에서 식별하는 것을 포함한다. 이미지는 식별된 AFIDs에 의해 나타내어진 시공간적 궤적을 결정하도록 처리될 수 있고, 상기 궤적은 액티비티를 실행할 수 있는 복수의 개인 중에서 액티비티를 수행한 특정 개인을 식별하도록 처리될 수 있다. 선택적으로, AFID 궤적을 처리하는 것은 주어진 액티비티의 실행 동안에 AFIDs가 나타내는 로컬 및 비로컬 시공간적 상관관계(correlations)를 결정하는 것과, 특정 개인의 식별을 결정하도록 상기 상관관계를 사용하는 것을 포함한다. 시공간적 상관관계는 AFID 또는 AFIDs의 궤적이나 시공간적 궤적이나 궤적들을 특징짓는 공간 매개변수, 시간 매개변수 또는 공간 및 시간 매개변수 모두에 기초한 상관관계를 포함할 수 있다.

주어진 액티비티와 관련된 AFID는, 본 발명의 일 실시예에 따라 액티비티를 실행하는 사람을 식별하는데 사용하기에 적당한 주어진 액티비티의 실행에 시공간적 궤적을 나타내는 팔다리, 얼굴 또는 머리와 같은 임의의 신체 부분의 해부학적 표지점일 수 있다. 예를 들면, AFID는 예로서 걷거나, 골프 공을 드라이브하거나, 또는 ATM에서 패스워드를 타이핑하는 것과 같은 이러한 액티비티 동안에 적당한 시공간적 궤적을 나타내는 팔다리의 골격 뼈이거나 관절일 수 있다. 타이핑을 위하여, AFIDS는 손의 뼈가 연결된 복수의 관절을 포함할 수 있다. AFID는 눈썹, 눈, 및 입술 코너와 같은 얼굴 표지점일 수 있으며, 이의 모션은 얼굴 표정 및 미세 표정을 분류하는데 사용된 얼굴 행동 코딩 시스템(FACS: facial action coding system)의 행동 단위(AUs: action units)를 정의하도록 사용된다. AFIDs는 또한 손의 복수의 손가락의 지문의 미누티아 쌍(minutia pair)의 특징일 수 있으며, 미누티아 쌍의 식별을 가능하게 하기에 충분한 광학 해상도로 비접촉식으로 이미지화될 수 있다.

일 실시예에 따라, DYNAMIDE는 액티비티를 실행하는 개인을 식별하도록, 액티비티의 이미지를 처리하는 적어도 하나의 신경망을 사용한다. 일 실시예에 있어서, 적어도 하나의 신경망은 신체 부분이나 관심 영역(BROIs)을 이미지에서 검출하고 이들이 포함할 수 있는 AFIDs를 식별하도록 훈련된다. 액티비티의 실행 동안에 식별된 AFID의 공간 및 시간 전개는 시공간적 그래프(ST-그래프)로 나타내어지고, 상기 그래프에서 AFID는 액티비티의 시공간적 AFID 궤적을 형성하는 공간 에지와 시간 에지에 의해 연결된 노드이다. 적어도 하나의 신경망은 궤적을 처리하고 액티비티를 실행하는 개인에 따라 상기 액티비티를 분류하기 위한 적어도 하나의 그래프 컨볼루션 네트워크(GCN: graph convolutional network)를 포함할 수 있다.

일 실시예에 있어서, 적어도 하나의 GCN은 AFID 시공간적 궤적을 처리하기 위한 적어도 하나의 비로컬 신경망 블럭을 구비한 비로컬 신경망(NLGCN: nonlocal neural network)을 포함한다. 적어도 하나의 비로컬 신경망 블럭은 적어도 하나의 공간 비로컬 신경망 블럭 및/또는 적어도 하나의 시간 비로컬 신경망 블럭을 포함할 수 있다. 선택적으로, NLGCN은 AFID 궤적에 기초한 독립적인 자유도로 특징지워지는 데이트 세트를 처리하도록 작동하는 복수의 컴포넌트 NLGCNs를 포함한 멀티-스트림(stream) GCN으로 구성된다. 일 실시예에 있어서, 멀티-스트림 GCN의 아웃풋은 각각의 컴포넌트 GCNS의 아웃풋의 가중 평균을 포함할 수 있다.

예로서, 개인이 타이핑하는 방식에 의해 개인을 식별하도록 구성된 DYNAMIDE에 대해, 손의 관절인 AFIDs는 관절을 연결하는 손의 뼈인 AFIDs에 이용가능한 독립적인 모션 자유도인 모션 자유도(예로서, 상이한 손가락의 관절 사이의 거리)에 의해 특징지원진다. 일 실시예에 있어서, DYNAMIDE은 이에 따라 2개의 컴포넌트 NLGCNs를 갖는 2개의-스트림 2s-NLGCN 멀티-스트림 GCN를 포함할 수 있다. 2개의 컴포넌트 NLGCN 중 하나는 관절 AFIDs를 처리하고 다른 하나의 컴포넌트 NLGCN는 뼈 AFIDs를 처리한다. 일 실시예에 있어서, 관절 NLGCN은 2s-NLGCN를 구성하도록 사용될 수 있는 다수의 선험적 제약(apriori constraints)을 감소시키도록 실질적으로 구동되는 데이터인 적어도 하나의 학습가능한 "적응형", 인접 매트릭스를 포함한다. 본 발명의 일 실시예에 따른 적응형 인접 매트릭스를 포함한 2s-NLGCN는 적응형 2s-NLGCN(2s-ANLGCN)로 참조될 수 있다. 타이핑하는 DYNAMIDE의 2s-NLGCN 또는 2s-ANLGCN의 뼈 NLGCNs 및 관절의 아웃풋은 개인을 식별하도록 융합될 수 있다.

일 실시예에 따라, 특정 개인을 식별하는 것은 실시간으로 행해진다. 일 실시예에 따른 실시간 식별은, 식별이 실행되는 서비스의 QoE(quality of experience)가 식별 처리에 의해 실질적으로 저하되지 않는 시간 프레임 내에, 또는 개인이 액티비티를 실행하는 동안의 개인의 식별을 참조한다.

본 과제의 해결 수단은 아래 상세한 설명에 또한 기재된 단순화된 형태로 선택된 개념을 소개하기 위해 제공된다. 본 과제의 해결 수단은 청구항의 주요 특징이나 필수 특징을 식별하기 위한 것이 아니며, 또는 청구범위의 범주를 한정하도록 사용되지 않는다.

본 발명의 실시예의 예시적인 예는, 본 단락 다음에 열거되는 본 명세서에 첨부된 도면을 참조하여 아래 기재된다. 하나 이상의 도면에 나타난 동일한 특징은, 일반적으로 도시된 모든 도면에서 동일한 라벨로 라벨링된다. 도면에서 본 발명의 실시예의 주어진 특징을 나타내는 아이콘을 라벨링하는 라벨은, 주어진 특징을 참조하기 위해 사용될 수 있다. 도면에 표시된 특징부의 치수는 표현의 편의성과 명확성을 위해 선택되며 반드시 축척으로 표시되지 않는다.
도 1은, 본 발명의 일 실시예에 따라, DYNAMIDE가 사람을 식별하도록 액티비티를 실행하는 사람의 일련의 비디오 프레임을 처리할 수 있는 프로세스를 나타낸 플로우 다이어그램이고;
도 2는, 본 발명의 일 실시예에 따라, 사람을 식별하도록, ATM(automated teller machine)에서 타이핑하는 사람의 일련의 비디오 프레임을 처리하는 DYNAMIDE 시스템의 개략적인 도면이고;
도 3A는, 본 발명의 일 실시예에 따라, DYNAMIDE가 키보드를 타이핑하는 사람을 식별하도록 사용할 수 있는 손의 이미지와 손의 AFIDs를 개략적으로 나타낸 도면이고;
도 3B는, 본 발명의 일 실시예에 따라, 도 3A에 도시된 손을 모델링하는, 개략적인 공간 그래프, S-그래프이고;
도 4A는, 본 발명의 일 실시예에 따라, 도 2에 도시된 ATM에서 타이핑하는데 참여한 사람에 대해 획득된 일련의 비디오 프레임 중 한 프레임의 개략적으로 확대된 이미지이고;
도 4B는, 본 발명의 일 실시예에 따라, 도 4A에 도시된 비디오 프레임에 이미지화된 손을 모델링 한 개략적인 S-그래프이고;
도 5A는, 본 발명의 일 실시예에 따라, 도 2에 도시된 일련의 비디오 프레임의 개략적으로 확대된 이미지이고;
도 5B는, 본 발명의 일 실시예에 따라, 도 5A에 도시된 비디오 프레임 순서의 이미지에 대응하는 개략적인 시공간적 그래프 ST-그래프이고;
도 6A는, 본 발명의 일 실시예에 따라, 도 5B에 도시된 ST-그래프의 데이터 관련 노드를 포함한 시공간적 특징부 텐서(tensor)의 개략적인 도면이고; 그리고
도 6B는, 본 발명의 일 실시예에 따라, DYNAMIDE가 도 6A에 도시된 텐서에서 데이터를 처리하도록 사용할 수 있는 비-로컬 신경망의 도표(schema)를 나타낸 도면이다.

달리 언급되지 않는 한, 본 명세서에서, 본 발명의 실시예의 특징 또는 특징의 조건이나 관계 특성을 수정하는 "실질적으로" 및 "약"과 같은 용어는, 조건 또는 특성이 의도되는 애플리케이션에 대한 실시예의 작동에 대해 허용가능한 허용 오차 내에서 정의된다는 것을 의미하는 것으로 이해된다. 본 명세서에서 일반적인 용어가 예시적인 예나 예시적인 예의 리스트를 참조함으로써 설명될 때마다, 참조된 예나 예시는 일반적인 용어의 제한적이지 않은 예시적인 예이고, 상기 일반적인 용어가 참조된 특정 예시적인 예나 참조된 예로 한정되는 것으로 의도되지 않는다. "일 실시예에서"라는 구문은 "일/할 수 있다", "선택적으로" 또는 "예를 들어/예로서"와 같은 허용적인 것과 관련이 있는지 여부에 관계없이 예를 고려하기 위해 사용되지만, 본 발명의 가능한 실시예의 구성에 반드시 필요한 것은 아니다. 달리 지시하지 않았다면, 본 실시예와 청구항에서의 "또는/나"과 같은 용어는, 배타적인 "또는/나"보다는 포괄적인 "또는/나"로 고려되고, 이 용어가 결합하는 항목 중 적어도 하나를 나타내거나 또는 둘 이상의 임의의 조합을 나타낸다.

도 1은, 본 발명의 일 실시예에 따라, 프로세스(또한 선택적으로 부재번호 20으로 지시됨)를 나타내는 고 레벨의 플로우 다이어그램(20)을 나타내고 있고, 상기 프로세스에 의해, 사람이 실행하는 액티비티에 응답하여 DYNAMIDE가 상기 사람을 식별하도록 작동할 수 있다.

블럭(22)에 있어서, DYNAMIDE은 본 발명의 일 실시예에 따라, 선택적으로 DYNAMIDE가 액티비티에 참여한 사람에 대한 식별을 판단하도록 처리하기 위해 구성되는, 액티비티에 참여한 사람의 일련의 비디오 프레임을 획득한다. 블럭(24)에 있어서, DYNAMIDE는 액티비티와 관련된 적어도 하나의 AFID를 이미지화하는 비디오 프레임에서 신체 관심 영역(BROIs: body regions of interest)의 이미지를 식별하도록 비디오 프레임을 처리한다. 비디오 프레임에서 BROI를 식별하는 것은 선택적으로 상기 BROI의 이미지를 포함하는 프레임에서 적어도 하나의 경계 박스를 판단하는 것을 포함한다. 블럭(26)에 있어서, DYNAMIDE는 적어도 하나의 AFID의 이미지를 각각의 경계 박스에서 식별하도록 비디오 프레임에 대해 판단된 각각의 경계 박스를 처리한다. 비디오 프레임의 경계 박스에서 AFID의 이미지를 식별하는 것은 선택적으로 비디오 프레임에서 동일한 AFID의 모든 식별된 이미지를 라벨링하도록 사용되는 AFID의 식별 라벨, "AFID ST-ID"을 포함하는 시공간 ID(ST-ID)를 이미지와 연관시키는 것과, 상기 이미지에 대한 시공간적 좌표를 결정하는 것을 포함한다. 시공간적 좌표는 시간 스탬프 및 적어도 2개의 공간 좌표를 포함한다. 시간 스탬프는, AFID가 위치된 경계 박스를 포함한 비디오 프레임이 일련의 비디오 프레임에서 다른 비디오 프레임이 획득한 시간과 관련하여 획득된 시간, 즉, 시간 위치를 식별한다. 적어도 2개의 공간 좌표는 시간 스탬프에 의해 지시된 시간에서, AFID의 공간 위치에 대응한다. 선택적으로, 주어진 식별된 AFID에 대한 AFID ST-ID는 각각의 공간 좌표에 대한 표준 편차(sd: standard deviation) 및 AFID ST-ID와 관련된 AFID-ID 라벨이 정확한 확률을 포함한다. AFID ST-ID에 대해 결정된 가장 이른 및 가장 늦은 시간 스탬프 및 극단의 공간 좌표는 일련의 비디오 프레임에서 이미지화되고 식별된 AFIDs의 모든 예의 시공간적 좌표를 포함하는, 시공간적 AFID 선체(hull)(ST-Hull)로서 참조될 수 있는 공간-시간 볼륨을 결정한다.

블럭(28)에 있어서, DYNAMIDE는, AFIDs의 식별된 예를, 공간 에지 및 시간 에지에 의해 연결된 AFID 시공간적 그래프(ST-그래프)의 노드로서 구성하도록 AFIDS의 ST-IDs를 사용한다. 공간 에지는 ST-그래프 노드를 연결하고, 상기 노드는 동일한 시간 스탬프에 의해 식별된 AFIDs의 이미지화 된 예를 나타내고 동일한 비디오 프레임에서 이미지화된 AFIDs의 예이며, 상기 공간 에지는 사람의 신체의 구조에 의해 AFIDs에 부가된 공간 제약을 나타낸다. 동일한 주어진 프레임과 주어진 시간에서 이미지화된 AFID의 예의 공간 관계를 나타내는 공간 에지에 의해 연결된 노드의 구성은 상기 주어진 시간에서의 AFIDs의 공간 그래프(S-그래프)로서 참조될 수 있다. 시간 에지는 일련의 비디오 프레임에서 2개의 연속적으로 획득된 비디오 프레임에서의 동일한 AFID의 이미지를 나타내는 ST-그래프에서의 시간적으로 인접한 노드를 연결한다. 시간 에지는 2개의 연속되는 시간 스탬프 사이의 경과된 시간을 나타낸다. ST-그래프는 시간 에지에 의해 연결된 AFIDs에 대한 S-그래프를 포함하도록 고려될 수 있다.

일 실시예에 있어서, 블럭(30)에서, DYNAMIDE는 선택적으로 적응형, 비-로컬 그래프 컨볼루션 신경망(ANLGCN)을 사용하여 AFID ST-그래프를 처리하여, 상기 ANLGCN이 인식하도록 훈련된 복수의 사람들 중에서 어느 사람이 액티비티에 참여하거나 참여하고 있는지를 선택적으로 실시간으로 결정한다. 일 실시예에 있어서, ANLGCN은 AFID ST-선체에 걸쳐있고, 상기 선체 내의 임의의 시공간적 위치에서 AFID의 이미지화된 예와 관련된 데이터가 학습된 가중치로써 가중될 수 있게 하고, 상기 선체 내의 다른 임의의 곳의 시공간적 위치에 대한 ANLGCN에 의해 실행된 컨볼루션에 기여하도록 구성된다. 선택적으로, NLGCN은 독립적인 자유도에 의해 특징지워지는 AFID 데이터 세트를 처리하도록 작동하는 복수의 컴포넌트 NLGCNs를 포함하는 멀티-스트림 GCN으로 구성된다.

도 2는, 본 발명의 일 실시예에 따라, 도 1에 도시된 프로세스를 실행하도록 구성되고, 사람이 액티비티를 실행하는 방식으로 상기 액티비티에 참여한 사람을 식별하도록 구성된 DYNAMIDE 시스템(100)을 개략적으로 나타낸 도면이다. DYNAMIDE 시스템(100)은 선택적으로 클라우드 기반의 처리 허브(120), 점선(111)으로 지시된 시계(FOV: field of view)를 갖는 이미징 시스템(110)을 포함할 수 있다. 이 도면에서, 예로서, 액티비티는 ATM(60)에서 사람(50)이 참여한 키패드(52)를 타이핑하는 것이다.

이미징 시스템(110)은, 키패드(62)에서 타이핑하는 사람(50)의 손들이나 손(52)의 복수의 "N" 2D 및/또는 3D 비디오 프레임(114_n, 1 ≤ n ≤ N)의 비디오 순서(sequence, 114)를 제공하도록 작동가능하다. 이미징 시스템(110)은 적어도 하나의 유선 및/또는 무선 통신 채널(113)에 의해 허브(120)에 연결되고, 이를 통해 상기 이미징 시스템(110)은 획득한 비디오 프레임을 상기 허브에 전송한다. 허브(120)는 수신된 비디오 프레임(114_n)을 처리하여, 사람의 손(52)이 비디오 프레임에서 이미지화되는 사람(50)을 식별하도록 구성된다. 허브는, 상기 허브가 제공하는 기능을 지원하는데 필요할 수 있는, 데이터 및/또는 실행가능한 명령(이하, 소프트웨어라고도 언급됨), 및 임의의 다양한 전자 및/또는 광학 물리적, 및/또는 가상, 프로세서, 메모리, 및/또는 유무선 통신 인터페이스(이하, 하드웨어라고도 언급됨)를 포함 및/또는 억세스한다.

예로서, 허브(120)는, 비디오 프레임(114_n)에서 BROIs를 검출하도록 작동가능한 물체 검출 모듈(130), 검출된 BROI에서 AFIDs를 식별하고 각각의 식별된 AFID에 ST-ID를 제공하는 AFID 식별기 모듈(140), 및 사람(50)을 식별하기 위한 시공간적 그래프로서 세트의 ST-IDs를 처리하도록 작동가능한 비-로컬 분류기를 포함하는 분류기 모듈(150)을 지원하는 소프트웨어와 하드웨어를 포함한다.

일 실시예에 있어서, 물체 BROI 검출기 모듈(130)은, 관련 BROIs를 실시간으로 검출할 수 있는 YOLO(You Look Only Once) 검출기와 같은 빠른 물체 검출기를 포함한다. AFID 식별기 모듈(140)은 검출된 BROIs에서 AFIDs를 식별하기 위한 CPM(convolutional pose machine)을 포함할 수 있다. 분류기 모듈(150)은 상기 언급되고 아래 기재된, 선택적으로 적응형, 비-로컬 그래프 컨볼루션 네트워크를 포함한다. 도 2에 있어서, 분류기 모듈(150)은 막대그래프(152)로 나타낸 확률의 아웃풋을 제공하는 것을 개략적으로 나타내어진다. 막대그래프는, 손(52)이 비디오 프레임에서 이미지화되는 사람이 주어진 사람이라는 것을 인식하도록 DYNAMIDE(100)가 훈련되는, 복수의 사람 중 각각의 주어진 사람에 대한 확률을 제공한다. DYNAMIDE(100)는 손(52)이 비디오 프레임(114_n)에서 타이핑하는 것이 이미지화되는 사람으로서 사람(50)을 성공적으로 식별하는 것으로 개략적으로 도시된다.

일 실시예에 있어서, DYNAMIDE(100)가 타이핑하는 사람을 식별하도록 사용하는 AFIDs는 타이핑하는 손의 관절(손가락 및/또는 손목 관절) 및 손가락 뼈(지골(phalanges))이다. 도 3A은, 본 발명의 일 실시예에 따라, 너클(knuckle)로도 언급되는 손가락 관절, 및 타이핑하는 손의 비디오 이미지를 처리하기 위해 DYNAMIDE(100)로써 AFIDs로 선택적으로 사용되는 손목 관절을 갖는 손(200)의 이미지를 개략적으로 나타내고 있다. 관절은 플러스 기호 "+"로 지시된 손(200)에서의 위치를 갖고, 도면에 도시된 바와 같이, 전반적으로 손 관절 라벨 "JH"로써 참조될 수 있고, 수치 라벨(J0, J1, ..., J20)로 개별적으로 구별될 수 있다. DYNAMIDE(100)가 타이핑 액티비티에 대해 AFID로서 사용할 수 있는 주어진 지골은, 주어진 지골이 연결하는 2개의 손가락관절을 지시하는 문자와 숫자의 라벨으로써 참조될 때, 식별된다. 예로서, 도 3A에 있어서, 관절(J5 및 J6)을 연결하는 손가락 뼈는 도 3A에서 점선으로 라벨링된 B5-6으로 개략적으로 지시되고, 손가락 뼈(B18-19)는 손가락관절(J18 및 J19)을 연결한다. 손가락 뼈는 라벨(BH)로서 전반적으로 참조될 수 있다.

도 3B는 본 발명의 일 실시예에 따라, 주어진 시간에서 AFIDs에 대한 공간 관계를 나타내도록 사용될 수 있는 공간 그래프, S-그래프(200)를 개략적으로 나타내고 있고, 그리고 예로서, 손(200)이 이미지화되는 주어진 시간에서 손(200)에 대해 나타내어 진다. 공간 S-그래프(200)에 있어서, 도 3A에 도시된 손가락 관절 AFIDs(JH)은 라벨(JN)로 전반적으로 참조된 노드에 의해 나타내어진다. 노드(JN)는 도 3A에 도시된 상응하는 손가락관절(J0, J1, ..., J20)에 개별적으로 대응하는 문자와 숫자의 라벨(JN0, JN1, ..., JN20)에 의해 개별적으로 구별된다. 노드(JN)를 연결하는 S-그래프(200)의 에지는, 손가락관절을 연결하는, 뼈 AFIDs인 손가락 뼈를 나타낸다. 도 3B에 도시된 바와 같이, 에지는 라벨(BE)로 전반적으로 참조될 수 있고, 손(200)에서 상응하는 손가락 뼈에 대응하는 참조 라벨로써 개별적으로 참조된다. 예로서, 도 3B에서의 에지(BE5-6)은 도 3A에서의 뼈(B5-6)에 대응한다.

도 4A는, 본 발명의 일 실시예에 따라 처리를 위해, 획득 시간(t_n)에서 이미징 시스템(110)에 의해 획득되고 DYNAMIDE 허브(120)로 전송되는 비디오 프레임의 순서(114)의 n-th 비디오 프레임(114_n)(도 2)의 확대된 이미지를 개략적으로 나타내고 있다. 비디오 프레임(114_n)은 키패드(62) 상에서 타이핑하는 손(52) 뿐만 아니라 이미징 시스템(110)의 시계(111)(도 2)에 위치될 수 있는 손 주변의 환경에서의 특징을 이미지화한다. 도 4A에 개략적으로 도시된 바와 같은 주변 특징은 예로서, 카운터(64) 및 측벽(66) 뿐만 아니라 사람(50)이 카운터(64)에 놓아둔 모바일 폰(55)과 같은, ATM(60)의 구조의 일부를 포함할 수 있다.

상기 기재된 바와 같이, 비디오 프레임(114_n)의 순서(14) 처리에 있어서, 물체 검출 모듈(130)은 AFID 검출기(140)가 식별하고 DYNAMIDE(100)가 사람(50)을 식별하도록 사용하는 관절 AFIDs를 포함한 물체로서 프레임에 손(52)의 이미지를 위치시키는 경계 박스를 결정할 수 있다. 비디오 프레임(114_n)에서의 손(52)에 대한 물체 검출기 모듈(130)에 의해 결정된 경계 박스가 점선의 직사각형(116)으로 지시된다. AFID 검출기(140)가 경계 박스(116)에서 검출하고 식별하는 손가락관절 AFIDs는 일반적인 AFID 라벨(도 3A, JH 참조)에 의해 지시된다. 도 4B는, 획득 시간(t_n)에서 획득된 비디오 프레임(114_n)에서의 손의 이미지에 기초한 그래프처럼 손(52)을 모델링한 공간 S-그래프-52(t_n)를 개략적으로 나타내고 있다. S-그래프-52(t_n)에서 손가락관절 노드는, 노드가 속한 S-그래프-52(t_n)와 관련된 획득 시간(t_n)을 나타내는 인수(argument)를 추가하여 적당한 손가락관절 노드 라벨(JN0, JN1, ..., JN20)에 의해 지시될 수 있다. 예로서, S-그래프(52)(t_n)에서의 노드(JN0, JN1, ..., JN20)는 JN0(t_n), JN1(t_n),...,JN20(t_n)로 참조될 수 있다.

도 5A는, 각각의 시간(t₁, t₂, t₃, ... t_N)에서, ATM(60)에서 타이핑하는 손(52)을 이미지하는 비디오 프레임(114₁, 114₂, 114₃, ..., 114_N)을 포함한 도 2에 도시된 비디오 순서(14)의 확대된 이미지를 개략적으로 나타낸 도면이다. 도 5B는, 본 발명의 일 실시예에 따라, 비디오 프레임(114₁ - 114_N)에서 손(52)의 이미지에 기초한 타이핑하는 액티비티의 시공간적 전개를 모델링하는 ST-그래프(52)를 개략적으로 나타내고 있다. ST-그래프(52)는 비디오 프레임(114₁, ..., 114_N)에서 손(52)의 이미지에 대응하는 공간 S-그래프-52(t_n)( 1 ≤ n ≤ N)을 포함한다. 인접한 S-그래프, S-그래프-52(t_n) 및 S-그래프-52(t_n+1)에서의 상응하는 노드(JN)는 그 각각의 획득 시간(t_n 및 t_n+1) 사이의 경과된 시간을 나타내는 시간 에지에 의해 연결된다. 인접한 S-그래프-52(t_n)와 S-그래프-52(t_n+1) 사이의 모든 시간 에지는 동일한 시간 길이를 갖고, TE_n,n+1로 라벨링된다. 도 5B에서의 여러 시간 에지가 각각의 라벨에 의해 라벨링 된다.

ST-그래프-52와 관련된 노드 데이터는, DYNAMIDE 허브(120)의 분류기 모듈(150)이 ATM(60)의 키패드(62)를 타이핑하는 사람(50)의 식별을 판단하도록 처리하는 한 세트의 시공간적 인풋 특징을 제공한다. 상기 세트의 인풋 특징은, 도 6A에 개략적으로 도시된 바와 같이, AFID, 시간, 그리고 행, 열 및 깊이로써 텐서에서의 위치를 표시하는 채널 축선을 갖는 인풋 시공간적 특징 텐서(300)로서 모델링될 수 있다. ST-그래프-52에 대해, AFID 축선은 손(52)에서의 특별한 관절을 지시하는 노드 수로 교정되고, 시간 축선은 순차 프레임 수 또는 프레임 획득 시간에 의해 교정된다. 예로서, 시공간적 특징 텐서(300)의 채널 축선이 개략적으로 4개의 채널을 나타내고 있는 반면에, 일 실시예에 따라 시공간적 특징 텐서는 4개 보다 많거나 적은 채널을 구비할 수 있음을 알 수 있을 것이다. 예로서, AFID 및 시간 축선에 따라 개별적으로 지시된 주어진 노드와 주어진 시간에 대한 채널 축선에 따른 항목(entries)은 주어진 시간에서 주어진 노드에 대한 공간 위치를 결정하는 2개나 3개의 공간 좌표를 제공할 수 있다. 채널 항목은 또한 주어진 노드가 정확하게 식별되는 확률과 좌표의 정확도에 대한 에러 추정치를 제공할 수 있다.

일 실시예에 있어서, 분류기 모듈(150)은, 본 발명의 일 실시예에 따라, 데이터를 텐서(300)에서 처리하고 사람(50)에 대한 식별을 제공하도록, 적어도 하나의 비-로컬 그래프 컨볼루션 망(NLGCN: non-local graph convolution net)를 포함한 분류기를 구비할 수 있다. 선택적으로, 적어도 하나의 NLGCN는 비-로컬 GCN 레이어에 부가적으로, 적응형 인접 매트릭스를 포함하는 적어도 하나의 적응형 ANLGCN를 포함한다. 적응형 인접 매트릭스는, 공간 구조에 의해 지시되지 않고 사람이 타이핑을 실행하는 방식에 특이한, 서로와 관련하여 손의 관절의 시공간적 모션의 분류기 인식을 향상시키도록 작동한다.

예로서, 도 6B는, 본 발명의 일 실시예에 따라, DYNAMIDE 허브(120)가 텐서(300)에서 데이터를 처리하도록 사용될 수 있는 분류기(320)의 도표를 나타내고 있다. 분류기(320)는 데이터를 FCN(fully connected net)(328)으로 전방으로 이송하는 컨벌루션 신경망 블럭(322, 324, 및 326)을 선택적으로 포함하며, 이는 손(52)이 키패드(62)에서 타이핑하는 것이 비디오 순서(114)(도 2)에서 이미지화되는 사람이 복수의 사람 중 각각의 사람인지에 대한 여부와 관련하여 상기 각각의 사람에 대한 확률을 제공한다. 블럭(322)은 선택적으로 데이터를 시간 컨볼루션 네트워크(TCN: time convolutional network)으로 전방 이송하는 GCN을 포함한다. 블럭(324)은 데이터를 TCN으로 전방 이송하는 ANL-GCN을 포함하고, 블럭(326)은 데이터를 ANL-TCN으로 전방 이송하는 GCN을 포함한다.

따라서, 본 발명의 일 실시예에 따라, 사람을 식별하기 위한 방법이 제공되고, 상기 방법은: 액티비티 동안에 해부학적 표지점의 적어도 하나의 시공간적 궤적을 형성하는 데이트를 제공하는 사람이 참여한 액티비티와 관련된 복수의 해부학적 표지점 중 각각의 표지점에 대해 시공간적 데이터를 획득하는 단계; 획득된 시공간적 데이터를 시공간적 그래프(ST-그래프)로서 모델링하는 단계; 및 상기 사람에 대한 식별을 제공하도록 적어도 하나의 비-로컬 그래프 컨벌루션 신경망(NLGCN: non-local graph convolution neural network)을 사용하여, 상기 ST-그래프를 처리하는 단계를 포함한다. 선택적으로, 상기 적어도 하나의 NLGCN은 사람의 물리적인 신체 구조에 의해서만 지시되지 않는 복수의 해부학적 표지점 중 여러 해부학적 표지점에 관한 데이터에 응답하여 학습된 적응형 인접 매트릭스를 포함하는 적어도 하나의 ANLGCN(Adaptive NLGCN)를 포함한다. 부가적으로 또는 대안적으로, ST-그래프를 처리하는 것은 복수의 해부학적 표지점을 복수의 세트의 해부학적 표지점으로 분할하는 것을 포함하며, 각각의 세트는 모션의 자유도의 상이한 구성으로 특징지워진다. 선택적으로 본 방법은 각각의 세트에서, 해부학적 표지점과 관련된 획득된 시공간 데이터를 ST-그래프로서 모델링하는 것을 포함한다. 상기 처리하는 것은 사람에 대한 식별을 표시하는 데이터를 결정하도록, 복수의 세트 중 다른 세트의 처리에 독립적인 적어도 하나의 NLGCN의 NLGCN으로써, 복수의 세트의 해부학적 표지점의 각각의 세트에 대해 모델링된 ST-그래프를 처리하는 것을 포함할 수 있다. 선택적으로 본 방법은 사람에 대한 식별을 제공하도록 모든 세트로부터 결정된 데이터를 융합하는 것을 포함한다.

일 실시예에 있어서, 상기 시공간적 데이터를 획득하는 것은 액티비티에 참여하는 사람을 이미지화하는 일련의 비디오 프레임을 획득하는 것을 포함하며, 각각의 비디오 프레임은 복수의 해부학적 표지점 중 한 해부학적 표지점을 이미지화하는 적어도 하나의 신체 관심 영역(BROI)을 포함한다. 선택적으로 본 방법은, 각각의 비디오 프레임에서, 적어도 하나의 BROI를 검출하도록, 비디오 프레임을 처리하는 것을 포함한다. 부가적으로 또는 대안적으로, 본 방법은 선택적으로 복수의 해부학적 표지점 중 한 해부학적 표지점의 이미지를, 적어도 하나의 검출된 BROI 각각에서, 식별하는 것을 포함한다. 선택적으로, 본 방법은 시공간적 궤적을 정의하는 데이터를 결정하도록, 식별된 해부학적 표지점의 이미지를 처리하는 것을 포함한다.

일 실시예에 있어서, 복수의 해부학적 표지점은 관절을 포함한다. 선택적으로, 복수의 해부학적 표지점은 관절을 연결하는 뼈를 포함한다. 부가적으로 또는 대안적으로, 관절은 손가락 관절을 포함한다. 선택적으로, 액티비티는 일련의 손가락 조작을 포함한다. 손가락 조작은 키보드를 작동시키도록 관여된 조작을 포함할 수 있다.

일 실시예에 있어서, 관절은 큰 부속물(appendages)의 관절을 포함한다. 선택적으로, 액티비티는 스포츠이다. 선택적으로, 스포츠는 축구이다. 선택적으로, 스포츠는 골프이다.

일 실시예에서, 복수의 해부학적 표지점은 얼굴 표지점을 포함한다. 선택적으로, 얼굴 표지점은 얼굴 표정 및 미세-표정을 분류하는데 사용되는 얼굴 행동 코딩 시스템(FACS: facial action coding system)의 행동 단위(AUs: action unit)를 정의하도록 사용되는 얼굴 표지점을 포함한다. 일 실시예에 있어서, 복수의 해부학적 표지점은 손의 복수의 손가락의 지문의 미누티아 쌍의(minutia pair) 특징을 포함한다.

일 실시예에 따라, 사람을 식별하기 위한 시스템이 더 제공되고, 상기 시스템은: 액티비티에 참여하는 사람을 이미지화하는 비디오 프레임을 갖는 비디오를 획득하도록 작동하는 이미징 시스템; 및 개인에 대한 식별을 제공하도록 본원의 청구항 중 어느 한 항에 따라 비디오 프레임을 처리하도록 사용가능한 소프트웨어를 포함한다.

본 명세서의 발명의 실시예의 기재는 예시적으로 제공되며, 본 발명의 범위를 한정하려는 의도가 아니다. 기재된 실시예는 상이한 특징을 포함하며, 이들 모두가 모든 실시예에 요구되는 것은 아니다. 일부 실시예는 특징 중 일부만들 이용하거나 또는 이들 특징의 가능한 조합을 이용한다. 기재된 본 발명의 실시예의 변경 및 기재된 실시예에서 언급된 특징의 상이한 조합을 포함하는 실시예의 변경은 당업자에게 이루어질 수 있다. 본 발명의 범위는 청구범위에 의해서만 제한된다.

Claims

사람을 식별하는 방법으로서, 상기 방법은:
사람이 참여하는 액티비티 동안에 복수의 해부학적 표지점의 적어도 하나의 시공간적 궤적을 정의하는 데이터를 제공하는, 상기 액티비티와 관련된 상기 복수의 해부학적 표지점 각각에 대한 시공간적 데이터를 획득하는 단계;
상기 획득된 시공간적 데이터를 시공간적 그래프(ST-그래프)로서 모델링하는 단계; 및
상기 사람에 대한 식별을 제공하기 위해 적어도 하나의 비-로컬 그래프 컨볼루션 신경망(NLGCN: non-local graph convolution neural network)을 사용하여 상기 ST-그래프를 처리하는 단계;
를 포함하고,
상기 ST-그래프를 처리하는 단계는, 상기 복수의 해부학적 표지점을 복수의 세트의 해부학적 표지점으로 분할하는(segmenting) 단계를 포함하고, 각각의 세트는 상이한 구성의 모션 자유도에 의해 특징지워지는, 사람을 식별하는 방법.
제1항에 있어서, 상기 적어도 하나의 NLGCN는, 상기 사람의 물리적인 신체 구조로서만 지시되지 않은 상기 복수의 해부학적 표지점의 해부학적 표지점에 관한 데이터에 응답하여 학습된 적응형 인접 매트릭스를 포함하는 적어도 하나의 적응형 NLGCN(ANLGCN)를 포함하는, 사람을 식별하는 방법.
삭제
제1항에 있어서, 각각의 세트에서 상기 해부학적 표지점과 관련된 상기 획득된 시공간적 데이터를 ST-그래프로서 모델링하는 단계를 포함하는, 사람을 식별하는 방법.
제4항에 있어서, 상기 처리하는 단계는, 복수의 세트의 해부학적 표지점의 각각의 세트에 대해 모델링된 상기 ST-그래프를, 상기 사람에 대한 식별을 표시하는 데이터를 결정하도록 복수의 세트 중 다른 세트를 처리하는데 독립적인, 적어도 하나의 NLGCN 중 어느 한 NLGCN으로 처리하는 단계를 포함하는, 사람을 식별하는 방법.
제5항에 있어서, 상기 사람에 대한 식별을 제공하도록 모든 세트로부터 결정된 데이터를 융합하는 단계를 포함하는, 사람을 식별하는 방법.
제1항, 제2항, 제4항, 제5항 및 제6항 중 어느 한 항에 있어서, 상기 시공간적 데이터를 획득하는 단계는 상기 액티비티에 참여하는 사람을 이미지화하는 일련의 비디오 프레임을 획득하는 단계를 포함하고, 각각의 비디오 프레임은 상기 복수의 해부학적 표지점의 한 해부학적 표지점을 이미지화하는 적어도 하나의 신체 관심 영역(BROI: body region of interest)의 이미지를 포함하는, 사람을 식별하는 방법.
제7항에 있어서, 각각의 비디오 프레임에서 상기 적어도 하나의 BROI를 검출하도록 상기 비디오 프레임을 처리하는 단계를 포함하는, 사람을 식별하는 방법.
제7항에 있어서, 각각의 적어도 하나의 검출된 BROI에서 상기 복수의 해부학적 표지점의 한 해부학적 표지점의 이미지를 식별하는 단계를 포함하는, 사람을 식별하는 방법.
제9항에 있어서, 상기 시공간적 궤적을 정의하는 데이터를 결정하도록 상기 식별된 해부학적 표지점의 이미지를 처리하는 단계를 포함하는, 사람을 식별하는 방법.
제7항에 있어서, 상기 복수의 해부학적 표지점은 관절을 포함하는, 사람을 식별하는 방법.
제11항에 있어서, 상기 복수의 해부학적 표지점은 상기 관절을 연결하는 뼈를 포함하는, 사람을 식별하는 방법.
제11항에 있어서, 상기 관절은 손가락 관절을 포함하는, 사람을 식별하는 방법.
제13항에 있어서, 상기 액티비티는 일련의 손가락 조작을 포함하는, 사람을 식별하는 방법.
제14항에 있어서, 상기 손가락 조작은, 키보드 작동에 포함되는 조작을 포함하는, 사람을 식별하는 방법.
제11항에 있어서, 상기 관절은, 큰 부속물의 관절을 포함하는, 사람을 식별하는 방법.
제16항에 있어서, 상기 액티비티는 스포츠인, 사람을 식별하는 방법.
제17항에 있어서, 상기 스포츠는 축구인, 사람을 식별하는 방법.
제17항에 있어서, 상기 스포츠는 골프인, 사람을 식별하는 방법.
사람을 식별하는 방법으로서, 상기 방법은:
사람이 참여하는 액티비티 동안에 복수의 해부학적 표지점의 적어도 하나의 시공간적 궤적을 정의하는 데이터를 제공하는, 상기 액티비티와 관련된 상기 복수의 해부학적 표지점 각각에 대한 시공간적 데이터를 획득하는 단계, 여기서 상기 복수의 해부학적 표지점은 얼굴 표지점을 포함하고;
상기 획득된 시공간적 데이터를 시공간적 그래프(ST-그래프)로서 모델링하는 단계; 및
사람에 대한 식별을 제공하기 위해 적어도 하나의 비-로컬 그래프 컨볼루션 신경망(NLGCN)을 사용하여 상기 ST-그래프를 처리하는 단계;
를 포함하는, 사람을 식별하는 방법.
제20항에 있어서, 상기 얼굴 표지점은, 모션이 얼굴 표정 및 미세 표정을 분류하도록 사용된 얼굴 행동 코딩 시스템(FACS)의 행동 단위(AUs)를 정의하도록 사용되는 얼굴 표지점을 포함하는, 사람을 식별하는 방법.
제1항, 제2항, 제4항, 제5항 및 제6항 중 어느 한 항에 있어서, 상기 복수의 해부학적 표지점은 손의 복수의 손가락의 지문의 미누티아 쌍의 특징을 포함하는, 사람을 식별하는 방법.
삭제