KR20220016217A - 디바이스들의 네트워크에서 사람 인식가능성을 사용하는 시스템 및 방법 - Google Patents

디바이스들의 네트워크에서 사람 인식가능성을 사용하는 시스템 및 방법 Download PDF

Info

Publication number
KR20220016217A
KR20220016217A KR1020217043277A KR20217043277A KR20220016217A KR 20220016217 A KR20220016217 A KR 20220016217A KR 1020217043277 A KR1020217043277 A KR 1020217043277A KR 20217043277 A KR20217043277 A KR 20217043277A KR 20220016217 A KR20220016217 A KR 20220016217A
Authority
KR
South Korea
Prior art keywords
recognizable
devices
computing devices
model
user
Prior art date
Application number
KR1020217043277A
Other languages
English (en)
Inventor
앤드류 갤러거
조셉 에드워드 로스
마이클 크리스찬 네치바
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20220016217A publication Critical patent/KR20220016217A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/50Maintenance of biometric data or enrolment thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

본 개시는 디바이스들의 네트워크를 통해 인식을 수행하기 위한 컴퓨터로 구현되는 시스템 및 방법에 관한 것이다. 일반적으로 시스템 및 방법은 사람을 식별하는데 사용될 수 있는 생체 정보를 반드시 생성하거나 저장할 필요 없이 사람의 음성, 얼굴 특성 또는 유사한 정보와 같은 정보를 프로세싱하여 인식가능성 점수를 결정하는 기계 학습 인식가능성 모델을 구현한다. 인식가능성 점수는 디바이스들의 네트워크의 다른 디바이스들에서 수행될 수 있는 생체 인식에 대한 참조로서 정보 품질에 대한 프록시 역할을 할 수 있다. 따라서 단일 디바이스를 사용하여 네트워크에 사람을 등록할 수 있다(예: 사람의 여러 사진을 캡처하여). 그 후, 다른 디바이스들에 대한 연결은 다른 디바이스의 센서(예: 카메라)를 활용하여 참조 정보의 피처를 센서에 의해 수신된 입력과 비교할 수 있다.

Description

디바이스들의 네트워크에서 사람 인식가능성을 사용하는 시스템 및 방법
본 발명은 일반적으로 기계 학습에 관한 것이다. 보다 구체적으로, 본 개시는 생체 분석을 특정 신뢰 디바이스들로 제한하면서 디바이스들의 네트워크를 통해 사용자 인식이 발생할 수 있게 하는 등록 프로세스(예를 들어, 기계 학습 모델을 사용함)에 관한 것이다.
얼굴 인식, 지문 인식, 음성 인식 등 생체인식은 스마트폰, 개인 홈 어시스턴트 등 다양한 디바이스들에서 구현되고 있다. 종종 이러한 인식 방법은 디바이스 또는 디바이스의 특정 피처들에 대한 액세스 권한을 제어하기 위한 인증 형식으로 사용된다.
컴퓨팅 디바이스, 특히 일반적으로 "스마트" 디바이스 및/또는 사물 인터넷(IoT)이라고 지칭될 수 있는 네트워크 연결 가능 디바이스들의 수가 증가함에 따라 디바이스마다 액세스 권한을 정의해야 하는 대응하는 요구가 존재한다.
일반적으로, 생체 인식을 가능하게 하기 위해, 사용자는 사용자에 대한 하나 이상의 참조 파일들(예: 참조 이미지, 지문 스캔, 음성 샘플 등)의 생성을 포함할 수 있는 등록 프로세스에 참여할 수 있다. 그러나, 스마트 컴퓨팅 디바이스들의 수가 증가함에 따라, 각 개별 디바이스에 대한 이 등록 프로세스의 중복 수행은 시간 소모적이거나 번거롭거나 사용자에게 실망스러운 일이 될 수 있다. 따라서 사용자가 새 디바이스를 디바이스 네트워크에 추가할 때, 등록 프로세스를 다시 수행할 필요 없이 이러한 자신의 신원을 인식하는 기능을 새 디바이스에 단순히 확장하기를 원할 수 있다.
디바이스들의 네트워크에 걸쳐 생체 인식을 유리하게 관리할 수 있는 방법 및 시스템이 기술 분야에서 필요하다.
본 개시는 디바이스들의 네트워크를 통해 인식을 수행하기 위한 컴퓨터로 구현되는 시스템 및 방법에 관한 것이다. 일반적으로 시스템 및 방법은 사람을 식별하는데 사용될 수 있는 생체 정보를 반드시 생성하거나 저장할 필요 없이 사람의 음성, 얼굴 특성 또는 유사한 정보와 같은 정보를 프로세싱하여 인식가능성 점수를 결정하는 기계 학습 인식가능성 모델을 구현한다. 인식가능성 점수는 디바이스들의 네트워크의 다른 디바이스들에서 수행될 수 있는 생체 인식에 대한 참조로서 정보 품질에 대한 프록시 역할을 할 수 있다. 따라서 단일 디바이스를 사용하여 네트워크에 사람을 등록할 수 있다(예: 사람의 여러 사진을 캡처하여). 그 후, 다른 디바이스들에 대한 연결은 다른 디바이스의 센서(예: 카메라)를 활용하여 참조 정보의 피처를 센서에 의해 수신된 입력과 비교할 수 있다.
통상의 기술자 중 누군가를 위한 실시예의 상세한 논의가 첨부된 도면들을 참조하는 명세서에서 기술된다.
도 1a는 본 발명의 예시적 실시예에 따라 디바이스들의 네트워크에 걸쳐 인식을 수행하는 예시적 컴퓨팅 시스템의 블록도를 도시한다.
도 1b는 본 발명의 예시적 실시예에 따라 인식 및/또는 인식의 등록을 구현하는데 사용될 수 있는 예시적 컴퓨팅 디바이스의 블록도를 도시한다.
도 1c는 본 발명의 예시적 실시예에 따라 인식 및/또는 인식의 등록을 구현하는데 사용될 수 있는 예시적 컴퓨팅 디바이스의 블록도를 도시한다.
도 2는 본 개시의 예시적 실시예에 따른 예시적 디바이스들의 네트워크를 도시한다.
도 3는 본 발명의 예시적 실시예에 따른 예시적 디바이스들의 네트워크의 블록도를 도시한다.
도 4는 본 발명의 예시적 실시예에 따른 디바이스들의 네트워크에서 등록을 수행하는 예시적 방법의 흐름도를 도시한다.
도 5는 본 발명의 예시적 실시예에 따른 인식가능성 모델을 트레이닝하기 위한 예시적 프로세스를 디스플레이하는 블록도를 도시한다.
복수의 도면들에 걸쳐 반복되는 참조 번호는 다양한 구현예에서 동일한 구성을 식별하도록 의도되었다.
개요
일반적으로, 본 개시는 디바이스들의 네트워크를 통해 인식을 수행하기 위한 컴퓨터로 구현되는 시스템 및 방법에 관한 것이다. 특히, 상기 기술된 바와 같이, 사용자가 새 디바이스를 디바이스 네트워크에 추가할 때, 등록 프로세스를 다시 수행할 필요 없이 이러한 자신의 신원을 인식하는 기능을 새 디바이스에 단순히 확장하기를 원할 수 있다. 본 개시의 양태들은 하나 이상의 제1 디바이스(예를 들어, 스마트폰 및/또는 서버 컴퓨팅 시스템과 같은 사용자의 디바이스)에서 사용자에 대한 참조 파일들(예를 들어, 참조 이미지들의 갤러리)을 캡처하고 저장함으로써 이러한 프로세스를 가능하게 한다. 그 후, 사용자가 신원 인식을 제2 디바이스(예: 새로운 홈 어시스턴트 디바이스)로 확장하기를 원할 때, 사용자는 단순히 제1 디바이스(들)에 제2 디바이스(들)와 참조 파일(들)을 공유하도록 지시할 수 있다. 이러한 방식으로, 사용자는 참조 파일(들)이 수집되는 등록 프로세스를 다시 수행할 필요 없이 새 디바이스를 빠르고 쉽게 등록할 수 있다(예: 새 디바이스가 사용자를 인식하기 위한 인식 프로세스를 수행할 수 있음). 또한, 본 개시 내용의 추가적인 양태는 등록 및 인식 프로세스를 용이하게 하기 위한 기계 학습 모델의 사용에 관한 것이다. 구체적으로, 본 개시내용의 양태는 사용자에 대한 생체 또는 기타 개인 식별 정보의 계산 없이 고품질 참조 파일들의 큐레이션을 가능하게 하는 (예를 들어, 사용자 디바이스 및/또는 서버 디바이스와 같은 제1 디바이스(들)에서 또는 그에 의한) 기계 학습된 인식가능성 모델의 사용을 포함할 수 있다.
보다 구체적으로, 본 개시의 일 양태에 따르면, 네트워크에 참여하는 하나 이상의 디바이스들은 사람을 식별하는데 사용될 수 있는 생체 정보를 반드시 생성하거나 저장할 필요 없이 사람의 음성, 얼굴 특성 또는 유사한 정보와 같은 정보를 프로세싱하여 인식가능성 점수를 결정하는 기계 학습 인식가능성 모델을 포함하고 이용한다. 일반적으로, 인식가능성 점수는 디바이스들의 네트워크의 다른 디바이스들에서 수행될 수 있는 생체 인식에 대한 참조로서 정보 품질에 대한 프록시 역할을 할 수 있다.
품질 또는 인식가능성에 대한 한 가지 정의에 구속되지 않고, 일반적으로 이러한 용어는 식별 데이터(이미지 또는 음성) 조건이 개인을 구별하기에 충분한 세부 사항을 표시함을 나타내는데 사용된다. 예를 들어, 등록을 수행하는 개인과 관련된 이미지 또는 오디오 파일에 포함된 정보가 많을수록 일반적으로 파일의 품질이 높아진다. 예를 들어, 얼굴의 상반부만 디스플레이하는 이미지 파일은 얼굴 전체를 디스플레이하는 이미지 파일에 비해 품질이 낮다. 다른 예로서, 조용한 방에서 얻은 음성 녹음을 포함하는 오디오 파일은 야외 또는 혼잡한 환경에서 얻은 음성 녹음에 비해 더 높은 품질이다. 따라서 일반적으로 인식가능성은 식별 피처와 관련하여 낮은 배경과 같은 데이터 속성뿐만 아니라 데이터의 양 모두에 연결될 수 있다. 예를 들어, 낮은 인식가능성은 낮은 양의 데이터 및/또는 높은 배경 피처들을 표시하는 파일과 연결될 수 있다.
인식가능성에 대한 다른 정의는 쿼리에 연결될 수 있다. 예를 들어, 높은 인식가능성은 인식가능성이 높고 신원이 알려지지 않은 쿼리 신호에 대해 알려진 신원의 신호들(이미지들)의 갤러리가 제공될 때 신원이 정확하게 결정될 수 있는 더 큰 확률(예: 75% 이상)이 있음을 표시하는데 사용될 수 있다. 이 예의 반대는 또한 낮은 인식가능성의 예를 정의하는데 사용될 수 있다. 따라서 인식가능성 점수는 이미지 또는 다른 파일로부터 신원이 정확하게 결정될 수 있는 확률을 표시하는데 사용될 수 있다.
따라서, 일부 구현예에서, 새로 캡처된 참조 파일들(예: 초기 등록 프로세스의 일부로서 사용자의 디바이스에 의해 캡처된 이미지)은 그러한 파일(예: 이미지)이 파일에 의해 도시된 또는 참조된 개인을 인식하는데 유용한 정도를 표시하는 인식가능성 점수를 결정하기 위해 기계 학습 인식가능성 모델에 의해 평가될 수 있다. 그러나, 인식가능성 점수 자체에는 개인을 식별할 수 있는 생체 정보 또는 기타 정보가 포함되어 있지 않다. 대신, 인식가능성 점수는 파일이 다른 디바이스(예: 사용자가 나중에 자신의 신원이 확장되도록 요청하는 "세컨더리" 디바이스)에서 수행될 수 있는 별도의 인식 프로세스를 통해 인식을 수행하는데 유용한지 여부를 단순히 표시한다.
새로 캡처된 참조 파일들 중 일부는 앞으로 이동하는 사용자를 인식하는데 사용하기 위한 참조 파일(들)의 제공할 참조 파일(들) 세트에 포함하기 위해 각각의 인식가능성 점수에 기초하여 선택될 수 있다. 일 예로서, 새로 캡처된 이미지들(예를 들어, 초기 등록 프로세스의 일부로서 사용자의 디바이스에 의해 캡처된 이미지)는 각 이미지에 대한 인식가능성 점수를 결정하기 위해 기계 학습된 인식가능성 모델에 의해 평가될 수 있다. 특정 임계값 점수를 만족하는 인식가능성 점수를 수신한 이미지(예: "인식가능성"이 높은 것으로 판단됨)는 (예: 사용자의 디바이스 및/또는 서버 디바이스에 의해) 선택 및 사용자와 연관된 이미지 갤러리에서 (사용자의 디바이스 및/또는 서버 디바이스에 의해) 저장될 수 있다. 그러나 중요하게도 참조 파일(들)의 세트는 인식가능성 분석을 사용하여 구축될 수 있지만(예: 인식 프로세스의 수행에 매우 유용한 참조 파일(들)만 포함하는 고품질 참조 세트를 생성하기 위해), 실제 생체 정보의 계산이 참조 파일(들)의 세트를 생성하기 위해 반드시 발생하는 것은 아니다. 따라서, 제1 디바이스(들)(예를 들어, 사용자의 디바이스)가 (예를 들어, 정책 제약, 허가 등으로 인해) 생체 정보를 계산하거나 저장하는 것이 금지된 경우에도 고품질 참조 세트가 구축될 수 있다.
그렇게 하기 위한 사용자의 요청에 따라, 이 이미지 갤러리는 사용자가 인식 기능을 확장하기를 원하는 새로운 세컨더리 디바이스(예: 홈 어시스턴트 디바이스)와 공유되거나 액세스 가능하게 만들 수 있다. 특히, 일부 구현예에서, 세컨더리 디바이스는 참조 파일(들)(예를 들어, 이미지 갤러리)에 적어도 부분적으로 기초하여 사용자를 인식하기 위해 기계 학습된 인식 모델을 포함 및/또는 사용할 수 있다.
보다 구체적으로, 본 개시내용의 다른 양태는 (예를 들어, 생체 정보의 계산 또는 분석을 통해) 개인을 인식하도록 동작하는 (인식가능성 모델과 별개인) 기계 학습된 인식 모델의 사용에 관한 것이다. 특히, 세컨더리 디바이스는 사람을 도시하거나 달리 표현하는 추가 파일들(예: 이미지, 오디오 등)을 캡처하는 하나 이상의 센서들(예: 카메라, 마이크로폰, 지문 센서 등)를 포함할 수 있다. 세컨더리 디바이스는 기계 학습된 인식 모델을 사용하여 추가 파일들 및 참조 파일(들)을 분석하여 추가 파일들에 표현된 사람이 사용자로 인식될 수 있는지 여부를 결정할 수 있다. 일 예시로서, 기계 학습 인식 모델은 인식을 수행하는데 유용한 (예를 들어, 마지막 레이어 및/또는 하나 이상의 히든 레이어들에서) 임베딩을 생성하도록 트레이닝된 (예를 들어, 트리플렛 트레이닝 기법을 통해) 신경 네트워크일 수 있다. 예를 들어, 트리플렛 트레이닝 방식은 기계 학습 인식 모델을 트레이닝하는데 사용되어 각각의 입력들에 대한 각각의 임베딩들을 생성하며, 한 쌍의 임베딩 사이의 거리(예: L2 거리)는 대응하는 입력들(예: 이미지들)의 쌍이 동일한 사람을 도시하거나 참조하는 가능성을 표현한다. 따라서, 일부 구현예에서 기계 학습 인식 모델은 추가 파일(들) 및 참조 파일(들)에 대한 임베딩(들)을 생성할 수 있고, 추가 파일들에 의해 표현되는 사람이 사용자로서 인식되는지 여부를 결정하기 위해 각각의 임베딩들을 비교할 수 있다.
본 명세서의 다른 곳에서 더 상세히 설명되는 본 개시내용의 다른 양태는 증류 트레이닝 기법을 사용하는 기계 학습 인식 모델에 기초한 기계 학습 인식가능성 모델의 트레이닝에 관한 것이다. 특히, 증류 트레이닝 기법은 기계 학습 인식 모델의 하나 이상의 히든 레이어들로부터의 히든 레이어 출력(들)이 입력에 관한 생체 정보에 더하여, 입력의 인식가능성에 관한 정보를 포함한다는 사실을 활용한다. 또한, 히든 레이어 출력(들)과 연관된 메트릭(예를 들어, 놈(norm) 또는 기타 누적 통계)의 계산은 인식가능성 정보를 유지하면서 생체 또는 개인 식별 정보를 제거하거나 파괴할 수 있다. 따라서, 일부 구현예에서, 기계 학습 인식가능성 모델은 기계 학습된 인식 모델의 하나 이상의 히든 레이어(들)로부터 하나 이상의 히든 레이어 출력(들)의 놈 또는 다른 메트릭을 예측하도록 트레이닝될 수 있다. 이러한 방식으로, 기계 학습 인식가능성 모델은 인식가능성을 표시하지만 생체 데이터 또는 기타 개인 식별 정보를 포함하지 않거나 배제하는 인식 점수를 생성하도록 트레이닝될 수 있다.
따라서, 일부 예시적 구현예에서, 단일 디바이스를 사용하여 네트워크에 사람을 등록할 수 있다(예: 사람의 여러 사진을 캡처하여). 그 후, 다른 디바이스들에 대한 연결은 사람의 인식을 수행하기 위해 다른 디바이스의 센서(예: 카메라)를 활용하여 참조 정보의 피처를 센서에 의해 수신된 입력과 비교할 수 있다.
본 개시의 구현예는 연결된 디바이스의 네트워크에 걸쳐 디바이스 액세스 정책들을 정의하기 위한 이점을 제공할 수 있다. 이는 IoT(사물 인터넷) 디바이스의 수가 계속 확장되고 디바이스 마다 권한을 정의하는 것이 번거로워지기 때문에 특히 유용할 수 있다. 음성, 얼굴, 지문 또는 기타 바이오마커 인식에 각 디바이스를 등록하는 대신; 참조로 선택할 고품질 정보를 결정하는 단일 등록이 수행될 수 있다. 그런 다음 네트워크의 디바이스들 중 하나에 액세스하려는 사람은 이러한 추가 디바이스에 의해 획득된 새로 캡처된 데이터를 참조 파일(들)과 비교하는 인식 분석(예: 트레이닝된 기계 학습 인식 모델 사용)을 수행할 수 있다. 이러한 방식으로 사용자는 다수의 상이한 디바이스에 대한 등록 프로세스의 중복 수행을 피할 수 있다. 등록 프로세스의 중복 수행을 제거하면 프로세스가 여러 번이 아니라 한 번만 수행되기 때문에 컴퓨팅 리소스(예: 프로세스 사용량, 메모리 사용량, 네트워크 대역폭 등)를 절약할 수 있다.
예시를 위한 예로서, 홈 어시스턴트, 키리스 엔트리 및/또는 생체 피처(예: 지문, 눈, 얼굴, 음성, 등)를 활용하는 추가 디바이스와 같은 피처들을 포함하는 스마트홈을 설정하기 원하는 사람은 각 디바이스와 인터렉션하거나 디바이스의 특정 기능에 액세스하기 위한 액세스 정책으로서 안면 인식을 설정하기 원할 수 있다. 디바이스들의 네트워크를 통해 등록 프로세스를 달성하기 위해, 사람은 본 개시에 따른 방법을 구현하는 소프트웨어 또는 하드웨어를 포함하는 개인 컴퓨팅 디바이스(예를 들어, 스마트폰)로 하나 이상의 이미지들을 캡처할 수 있다. 개인 컴퓨팅 디바이스는 하나 이상의 이미지들(존재하는 경우) 중 어느 것이 참조 파일로서 서버 또는 다른 중앙 집중식 컴퓨팅 시스템(예를 들어, 클라우드 네트워크)에 전송할지 결정하기 위해 인식가능성 모델을 적용할 수 있다. 일반적으로, 중앙 집중식 컴퓨팅 시스템은 각 디바이스와 중앙 집중식 컴퓨팅 시스템 간에 네트워크(예: 인터넷, 블루투스, LAN 등)를 통해 데이터가 전송될 수 있도록 각 디바이스와 통신할 수 있다. 이후 각 디바이스의 정책에 따라 각 디바이스에 대한 액세스를 수행할 수 있다. 예를 들어, 디바이스에 액세스하는 것은 얼굴 인식의 경우 카메라와 같은 디바이스 센서에 의해 수신된 입력 데이터를 하나 이상의 참조 파일들과 비교하기 위해 디바이스에 포함된 인식 모델을 사용하는 것을 포함할 수 있다.
본 개시의 예시적 구현예는 디바이스들의 네트워크를 통해 개인 식별을 등록하기 위한 방법을 포함할 수 있다. 일반적으로, 이 방법은 사람을 표현하는 하나 이상의 파일들(예: 얼굴, 지문, 눈, 또는 유사한 정보의 이미지 및/또는 음성 녹음)을 포함하는 데이터세트를 획득하는 단계를 포함한다. 이들 하나 이상의 파일들로부터, 기계 학습 인식가능성 모델(예를 들어, 증류 모델)은 파일들을 기계 학습 인식가능성 모델에 제공함으로써 하나 이상의 파일들 각각에 대한 인식가능성 점수를 결정할 수 있다. 인식가능성 점수(들)에 적어도 부분적으로 기초하여, 데이터세트의 일부는 참조 파일 또는 파일들로서 하나 이상의 디바이스들에 저장하도록 선택될 수 있다. 그 후, 네트워크에 포함된 디바이스들 중 하나에 액세스를 시도하는 것은 인식 단계를 포함할 수 있다. 예를 들어, 인식 단계를 구현하는 것은 (예를 들어, 카메라 또는 마이크를 사용하여) 디바이스에 액세스하려고 하는 사람을 기술하는 센서 정보를 획득하는 것을 포함할 수 있다. 이 센서 정보는 참조 파일 또는 파일들과 비교되어 생체 정보가 디바이스, 디바이스의 애플리케이션 또는 이 둘의 조합에 대한 액세스를 허용하는 일치를 표시하는지 결정할 수 있다.
개인 식별에 등록하기 위한 방법의 양태는 디바이스들의 네트워크에 포함된 제1 디바이스를 사용하여 사람을 표현하는 하나 이상의 파일들을 포함하는 데이터세트를 획득하는 것을 포함할 수 있다. 일부 구현예에서, 제1 디바이스는 카메라 또는 다른 이미지 캡처 디바이스 및/또는 마이크로폰과 같은 내장 컴포넌트를 포함할 수 있는 스마트폰 또는 개인 컴퓨터와 같은 개인 컴퓨팅 디바이스를 포함할 수 있다. 제1 디바이스의 추가 피처들은 이미지에 한 명 이상의 사람이 존재하는지 검출하도록 구성될 수 있는 이미지 프로세서를 포함할 수 있다. 간결함을 위해, 본 개시의 구현예는 예시적 사용 사례로서 한 사람을 사용하여 논의된다; 그러나 이는 이러한 구현예 또는 기타 구현예를 한 사람 또는 한 사람이 포함된 이미지만 등록하는 것으로 제한하지 않는다. 하나 이상의 디바이스들에서 액세스할 수 있는 이미지 필터들 또는 기타 이미지 프로세싱을 사용하여 등록을 수행하기 위해 이미지를 개별 신원들(검출된 개별 인물들)로 분할할 수 있다.
개인 식별 등록의 또 다른 양태는 하나 이상의 파일들 각각에 대한 인식가능성 점수를 결정하는 것을 포함한다. 예시적 구현예에서, 인식가능성 점수는 증류를 사용하여 트레이닝된 인식가능성 모델을 사용하여 결정될 수 있고 증류 모델로서 지칭될 수 있다. 예를 들어, 본 개시에 따른 인식가능성 모델은 하나 이상의 다른 신경 네트워크들의 하나 이상의 출력들로부터 트레이닝된 증류 모델을 포함할 수 있다. 증류 모델은 증류 모델이 랩톱이나 스마트폰과 같은 개인 컴퓨팅 디바이스에서 실행될 수 있도록 하는 더 낮은 컴퓨팅 비용과 같은 이점을 제공할 수 있다.
증류 모델을 트레이닝하는 것은 신경 네트워크 및/또는 신경 네트워크의 하나 이상의 출력들을 얻는 것을 포함할 수 있다. 신경 네트워크는 입력(예를 들어, 얼굴의 이미지)을 신경 네트워크에 제공함으로써 하나 이상의 히든 레이어들을 포함하는 출력들을 생성하는데 사용될 수 있다. 각각의 히든 레이어들은 하나 이상의 피처들을 포함할 수 있기 때문에, 하나 이상의 히든 레이어들로부터 메트릭(예를 들어, 놈(norm))이 계산될 수 있다. 증류 모델을 트레이닝하는 것은 주어진 입력에 대해 결정된 하나 이상의 히든 레이어들로부터 계산된 메트릭을 예측하기 위한 목적 함수를 최적화하는 것을 포함할 수 있다.
예를 들어, 증류 모델을 트레이닝하기 위한 예시적인 방법은: 일련의 히든 레이어들을 결정하도록 구성된 신경 네트워크를 획득하는 단계; 복수의 입력들을 상기 신경 네트워크에 제공함으로써 복수의 출력들을 결정하는 단계, 각 출력은 각각의 입력과 연관되고, 각 출력은 일련의 히든 레이어들의 일부를 포함하며; 상기 일련의 히든 레이어들의 일부에 포함된 적어도 하나의 히든 레이어에 대한 메트릭을 계산하는 단계; 및 상기 각각의 입력을 수신하는 것에 적어도 부분적으로 기초하여 상기 메트릭을 예측하기 위해 증류 모델을 트레이닝하는 단계를 포함할 수 있다.
신경 네트워크의 양태는 신경 네트워크가 결정하도록 구성된 히든 레이어들의 수를 기술하는 네트워크 구성을 포함할 수 있다. 예를 들어, 신경 네트워크는 적어도 5개의 히든 레이어, 적어도 7개의 히든 레이어, 적어도 10개의 히든 레이어, 적어도 20개의 히든 레이어 등과 같은 적어도 3개의 레이어를 결정하도록 구성될 수 있다. 일반적으로 메트릭을 계산하는데 사용되는 하나 이상의 히든 레이어 또는 레이어들은 레이어들의 첫 번째 레이어나 마지막 레이어는 포함하지 않는다. 따라서 증류 모델을 트레이닝하기 위해, 일반적으로 메트릭 계산을 위해 신경 네트워크의 중간 레이어가 선택될 수 있다. 예시를 위한 예로서, 메트릭을 계산하기 위한 히든 레이어로서 끝에서 두 번째 레이어(즉, 마지막 레이어에서 두 번째 레이어)가 선택될 수 있다. 추가로, 일부 경우에, 신경 네트워크는 출력을 결정하는 것을 제한하도록 구성될 수 있다. 예를 들어, 신경 네트워크의 중간 레이어가 메트릭을 계산하기 위해 선택될 수 있기 때문에, 신경 네트워크의 후속 레이어는 계산될 필요가 없으며, 신경 네트워크는 추가 히든 레이어들 또는 신경 네트워크의 다른 출력들을 결정하는 것을 중지하도록 구성될 수 있다.
증류 모델은 사람을 식별하는데 사용할 수 있는 생체 정보를 반드시 생성하지 않고도 인식가능성 분석을 수행할 수 있으므로 증류 모델을 사용하면 특정 이점을 제공할 수 있다. 이것은 사용자가 디바이스들의 네트워크에 포함된 모든 디바이스의 정책이나 기능에 익숙해질 필요가 없기 때문에 이점을 제공할 수 있다. 대신 사용자는 각 디바이스로 하여금 자체 정책에 따라 동작하도록 허용할 수 있다. 또한, 증류 모델은 참조 파일들을 보다 신속하게 식별 및/또는 선택하기 위해 사용자 디바이스에서 구현될 수 있는 보다 가벼운 구현예를 제공할 수 있다.
본 개시의 구현예의 추가의 예시적인 양태는, 인식가능성 점수에 적어도 부분적으로 기초하여, 참조 파일 또는 파일들로서 저장할 데이터세트의 일부를 선택하는 것을 포함할 수 있다. 특정 구현예에 따르면, 참조 파일은 네트워크에 포함된 디바이스들 중 하나에 액세스하려고 시도하는 사람과 비교하기 위해 프록시로서 액세스될 수 있다. 따라서, 일부 경우에, 선택이 최적화되어 거짓 양성(예: 사람이 등록되지 않은 경우 디바이스가 사람을 디바이스에 액세스하게 하는 것)을 감소시키고, 거짓 음성(예: 사람이 등록한 경우 디바이스가 사람이 디바이스에 액세스하는 것을 막는 경우)을 감소시키거나 또는 이 둘의 조합일 수 있다. 예를 들어, 본 개시의 구현예는 사람이 액세스를 시도하는 디바이스 상에 존재하는 내장 이미지 또는 음성 비교 모델로부터 야기될 수 있는 거짓 음성을 감소시키기 위한 이점을 제공할 수 있다. 인식가능성 모델은 등록 프로세스 동안 그 사람을 표현하는 고품질 정보를 결정하거나 식별할 수 있으며, 일부 경우에 데이터 세트에 포함된 파일들 중 어느 것도 인식가능성 표준 또는 임계값을 충족하지 않는 등록을 수행하려는 사용자에게 프롬프트할 수 있다. 다른 예로서, 본 개시의 구현예는 고품질 이미지만을 선택함으로써 거짓 양성을 감소시키는 이점을 제공할 수 있다. 예를 들어, 사람이 흐릿한 이미지로 가상으로 등록하는 경우, 식별 정보가 가려져 다른 사람이 디바이스에 더 쉽게 액세스하게 한다. 일반적으로 이미지가 더 가려질수록 식별 피처가 덜 포함되어, 거짓 양성의 가능성이 높아진다.
일부 구현예에서, 임계값은 백분위수, 최소값, 최대값 또는 하나 이상의 파일들에 대한 인식가능성 점수로부터 결정된 다른 유사한 집계 측정과 같은 메트릭에 의해 결정될 수 있다. 추가적으로 또는 대안적으로, 임계값은 프리셋 값을 포함할 수 있고, 값을 충족하거나 초과하는 파일들의 전체 또는 세트 수는 참조 파일(들)로 저장할 데이터세트의 부분으로 선택될 수 있다. 프리셋 값을 포함하면 등록 중에 캡처된 파일들이 품질이 낮은 데이터를 포함하고 각 파일들에 대한 인식가능성 점수를 임계값과 비교하는 것이 점수들이 임계값을 충족하거나 초과하지 않음을 나타내는 경우에 이점을 제공할 수 있다. 이러한 경우에, 등록을 수행하는 디바이스는 등록을 반복해야 하거나 추가 파일들이 데이터세트에 포함되어야 한다는 메시지를 디바이스에 디스플레이하는 것과 같은 프롬프트를 사용자에게 제공할 수 있다. 제1 디바이스에 대한 등록을 수행하는 다른 예시적 이점은 제1 디바이스가 어떤 파일(존재한다면)이 선택을 위한 임계값을 충족하는지 결정할 수 있기 때문에 네트워크 트래픽을 저장 및/또는 줄이는 것을 포함할 수 있다. 그런 다음, 획득된 파일들 전체를 전송하는 대신 선택된 파일들만 전송(예: 디바이스들의 네트워크에서 제2 디바이스에)할 수 있다. 예를 들어, 어떤 파일도 임계값을 충족하지 않아 네트워크에 포함된 다른 디바이스들로 파일을 전송할 필요가 없는 경우가 있을 수 있다.
임계값을 충족하거나 초과하는 인식가능성 점수를 가진 파일의 경우, 이를 참조 파일(들)로 저장하기 위해 제2 디바이스에 전송할 수 있다. 일부 구현예에서, 제2 디바이스는 서버, 클라우드 컴퓨팅 디바이스 또는 디바이스들의 네트워크에서 각 디바이스에 의해 액세스될 수 있는 유사한 디바이스를 포함할 수 있다. 이 중앙 집중식 참조를 사용하면 데이터 저장을 줄이거나 및/또는 디바이스에 액세스할 권한이 있는 사람과 같은 더 쉬운 등록 업데이트를 제공하는 등의 이점을 제공할 수 있다.
예시적 구현예로서, 디바이스들의 네트워크에 포함된 디바이스 및/또는 디바이스에 의해 수행되는 동작/애플리케이션에 액세스를 시도하는 사람은 디바이스에 대한 생체 분석을 수행할 수 있다. 생체 분석은 디바이스에 액세스하려는 사람에 대한 정보(예: 카메라의 비디오, 마이크로폰의 오디오 등)를 포함하는 신호를 얻기 위해 디바이스에 포함된 센서에 액세스하는 것을 포함할 수 있다. 이 신호는 사람과 연관된 피처들(예: 얼굴 특징)의 세트를 결정하도록 트레이닝된 기계 학습 인식 모델과 같은 생체 분석기에 의해 프로세싱될 수 있다. 동일한 생체 분석기 또는 유사하게 트레이닝된 생체 분석기가 참조 파일(들)을 프로세싱하여 피처들의 참조 세트를 결정할 수 있다. 그런 다음 이 두 가지 피처들 세트를 비교할 수 있으며, 비교에 기초하여 디바이스에 액세스하려는 사람에게 응답이 제공될 수 있다. 예를 들어, 디바이스에 액세스하려는 사람이 디바이스들의 네트워크에 등록을 완료한 경우, 응답은 디바이스의 홈 화면을 열거나 디바이스에 포함된 동작/애플리케이션을 수행하는 것을 포함할 수 있다. 대안으로, 디바이스에 액세스하려는 사람이 디바이스들의 네트워크에 등록하지 않은 경우, 응답은 등록을 수행하도록 사람에게 프롬프트하는 것, 그 사람에게 오류를 제공하는 것 및/또는 등록을 수행한 사람(들)에게 알림을 보내는 것을 포함할 수 있다.
일반적으로 생체 분석기는 디바이스들의 네트워크에 포함된 하나 이상의 디바이스들에 포함될 수 있으며, 디바이스의 정책에 따라 생체 분석을 수행하도록 구성될 수 있다. 예를 들어, 디바이스들의 네트워크에 포함된 제3 디바이스는 Google Home과 같은 컴퓨터 어시스턴트 또는 자연어 입력을 수신하고 입력에 기초하여 출력을 생성하도록 구성된 기타 유사한 디바이스를 포함할 수 있다. 이러한 디바이스들 각각은 생체 인식을 수행하기 위한 자체 모델(예: 기계 학습 인식 모델)을 포함할 수 있다. 예를 들어, 기계 학습 모델은 신경 네트워크를 구현하여 디바이스에 액세스하려는 사람의 피처 표현을 기술하는 임베딩을 생성할 수 있다. 이러한 디바이스는 또한 디바이스에 액세스하려는 사람을 기술하는 정보를 포함하는 신호를 얻기 위한 하나 이상의 센서들을 포함할 수 있다.
기술적 효과 및 이점의 예로서, 디바이스들의 네트워크를 통해 인식을 수행하는 방법 및 시스템은 액세스 정책을 관리 및 업데이트하기 위해 더 큰 제어를 제공하고 컴퓨팅 리소스를 줄일 수 있다. 예를 들어, 네트워크에 포함된 각 디바이스를 개별적으로 업데이트하는 것보다 한 번의 등록만 수행하면 시간과 컴퓨팅 리소스를 절약할 수 있다. 또한 한 번의 등록으로 고품질의 정보를 결정할 수 있으므로 재등록의 필요성이나 거짓 음성 또는 거짓 양성의 가능성을 줄일 수 있다. 마찬가지로, 여기에 설명된 인식가능성 분석은 등록 동안에 추가하여 인식 시간에 (예를 들어, 홈 어시스턴트 디바이스와 같은 세컨더리 디바이스에 의해) 수행될 수 있다. 인식시 인식가능성 분석을 사용하면 인식가능성이 낮은 저품질 파일(예: 이미지)에 대해 인식 분석이 수행되는 것을 방지하여 컴퓨팅 리소스를 절약할 수 있다.
일반적으로, 본 개시의 구현예는 인식가능성 분석을 수행하기 위해 인식가능성 모델을 포함하거나 그렇지 않으면 액세스할 수 있다. 특정 구현예의 경우, 인식가능성 모델은 증류를 사용하여 트레이닝될 수 있고 증류 모델로서 지칭될 수 있다. 예를 들어, 본 개시에 따른 인식가능성 모델은 하나 이상의 신경 네트워크들로부터의 출력으로부터 트레이닝된 증류 모델을 포함할 수 있다. 증류 모델은 증류 모델이 랩톱이나 스마트폰과 같은 개인 컴퓨팅 디바이스에서 실행될 수 있도록 하는 더 낮은 컴퓨팅 비용과 같은 이점을 제공할 수 있다. 특히, 여기에 설명된 증류 모델은 매우 빠르고 가벼운 특수 모델일 수 있으므로 프로세서 및 메모리 사용과 같은 컴퓨팅 리소스를 보존한다.
이제 도면들을 참조하여, 본 발명의 예시적 실시예들이 더 자세히 논의될 것이다.
예시적 디바이스 및 시스템
도 1a는 본 발명의 예시적 실시예에 따라 디바이스들의 네트워크에서 등록을 수행하는 예시적 컴퓨팅 시스템(100)의 블록도를 도시한다. 시스템(100)은 네트워크(180)를 통해 통신적으로 연결된 사용자 컴퓨팅 디바이스(102), 서버 컴퓨팅 시스템(130), 트레이닝 컴퓨팅 시스템(150) 및 세컨더리 컴퓨팅 디바이스(170)를 포함한다.
사용자 컴퓨팅 디바이스(102)는 예를 들어 개인 컴퓨팅 디바이스(예: 랩톱 또는 데스크톱), 모바일 컴퓨팅 디바이스(예: 스마트폰 또는 태블릿), 게임 콘솔 또는 컨트롤러, 웨어러블 컴퓨팅 디바이스, 임베디드 컴퓨팅 디바이스, 홈 어시스턴트(예: 구글 홈 또는 아마존 알렉사) 또는 임의의 다른 유형의 컴퓨팅 디바이스와 같은 임의의 유형의 컴퓨팅 디바이스일 수 있다.
사용자 디바이스(102)는 하나 이상의 프로세서들(112) 및 메모리(114)를 포함한다. 하나 이상의 프로세서들(112)은 임의의 적절한 프로세싱 디바이스(예를 들어, 프로세서 코어, 마이크로 프로세서, ASIC, FPGA, 제어기, 마이크로 컨트롤러 등)일 수 있고, 하나의 프로세서 또는 동작적으로 연결된 하나 이상의 프로세서 또는 복수의 프로세서들일 수 있다. 메모리(114)는 RAM, ROM, EEPROM, EPROM, 플래시 메모리 디바이스, 자기 디스크 등과 같은 하나 이상의 비일시적 컴퓨터 판독가능 저장 매체 및 이들의 조합을 포함할 수 있다. 메모리(114)는 사용자 컴퓨팅 디바이스(102)가 동작을 수행하게 하기 위한 프로세서(112)에 의해 실행되는 데이터(116) 및 명령어들(118)을 저장할 수 있다.
일부 구현예에서, 사용자 컴퓨팅 디바이스(102)는 하나 이상의 인식가능성 모델들(120)을 저장 또는 포함할 수 있다. 예를 들면, 인식가능성 모델(120)은 신경 네트워크들(예: 딥 신경 네트워크)과 같은 다양한 기계 학습 모델들 또는 비선형 모델 및/또는 선형 모델을 포함하는 다른 유형의 기계 학습 모델들일 수 있거나 또는 이들을 포함할 수 있다. 신경 네트워크는 피드-포워드 신경 네트워크들(feed-forward neural networks), 순환 신경 네트워크(예: 장단기 메모리 순환 신경 네트워크들), 컨벌루션 신경 네트워크 또는 다른 형태의 신경 네트워크들을 포함할 수 있다.
일부 구현예에서, 하나 이상의 인식가능성 모델(120)은 네트워크(180)를 통해 서버 컴퓨팅 시스템(130)으로부터 수신되고, 사용자 컴퓨팅 디바이스 메모리(114)에 저장되며, 하나 이상의 프로세서(112)에 의해 사용되거나 이와 달리 구현될 수 있다. 일부 구현예에서, 사용자 컴퓨팅 디바이스(102)는 (예를 들어, 인식가능성 모델(120)의 다수의 인스턴스들에 대해 병렬 등록을 수행 및/또는 인식가능성 점수를 결정하기 위해) 단일 인식가능성 모델(120)의 다수의 병렬 인스턴스를 구현할 수 있다.
보다 구체적으로, 인식가능성 모델은 사람 또는 얼굴의 픽셀 및/또는 음성 신호와 같은 식별 정보를 프로세싱하여 정보가 인식 가능한지 여부를 결정하기 위해 증류 기법을 사용하여 트레이닝된 기계 학습 모델을 포함할 수 있다. 일반적으로 사람 인식가능성 분석기는 얼굴 임베딩, 음성 임베딩, 눈이나 코와 같은 얼굴 랜드마크 또는 악센트와 같은 음성 피처와 같은 생체 정보를 계산하거나 저장하지 않도록 구성할 수 있다. 인식가능성 모델의 이러한 양태는 인식가능성 모델을 트레이닝하여 입력 정보의 품질에 대응하는 인식가능성 점수를 출력함으로써 달성될 수 있다.
추가적으로 또는 대안적으로, 하나 이상의 인식가능성 모델(140)은 클라이언트-서버 관계에 따라 사용자 컴퓨팅 디바이스(102)와 통신하는 서버 컴퓨팅 시스템(130)에 포함되거나 이와 달리 저장되고 구현될 수 있다. 예를 들어, 인식가능성 모델(140)은 서버 컴퓨팅 디바이스(140)에 의해 웹서비스의 일부로서 구현될 수 있다. 따라서, 하나 이상의 모델(120)은 사용자 컴퓨팅 디바이스(102)에 저장되고 구현될 수 있고 및/또는 하나 이상의 모델(140)은 서버 컴퓨팅 시스템(130)에 저장되고 구현될 수 있다.
일부 구현예에서, 사용자 컴퓨팅 디바이스는 인식 모델(124)을 포함할 수 있다. 인식 모델(124)은 생체 인식을 수행하기 위한 기계 학습 모델(예: 트레이닝된 신경 네트워크)을 포함할 수 있다. 일반적으로, 인식 모델(124)은 개인을 식별하는데 사용될 수 있는 생체 정보(예를 들어, 눈동자 거리와 같은 얼굴 피처)를 생성 및/또는 저장할 수 있기 때문에 인식 모델(124)은 인식가능성 모델(120)과 다르다. 일부 구현예에서, 인식 모델(124)은 사용자 컴퓨팅 디바이스(102)의 일부로서 포함되지 않을 수 있다. 대신에 서버 컴퓨팅 시스템(130)과 같은 다른 컴퓨팅 시스템의 일부로서 저장된 인식 모델(144)이 사용자 컴퓨팅 디바이스(102)에 의해 액세스될 수 있다.
또한 사용자 컴퓨팅 디바이스(102)는 사용자 입력을 수신하는 하나 이상의 사용자 입력 컴포넌트(122)를 포함할 수 있다. 예를 들어, 사용자 입력 컴포넌트(122)는 사용자 입력 객체(예를 들어, 손가락 또는 스타일러스)의 터치에 감응하는 터치 감지 컴포넌트(예를 들어, 터치 감지 디스플레이 스크린 또는 터치 패드)일 수 있다. 터치 감지 컴포넌트는 가상 키보드를 구현하는데 사용할 수 있다. 다른 예시적 사용자 입력 컴포넌트는 카메라, 마이크로폰, 전통적 키보드 또는 사용자가 사용자 입력을 제공할 수 있는 다른 수단들을 포함한다.
서버 컴퓨팅 시스템(130)은 하나 이상의 프로세서들(132) 및 메모리(134)를 포함한다. 하나 이상의 프로세서들(132)은 임의의 적절한 프로세싱 디바이스(예를 들어, 프로세서 코어, 마이크로 프로세서, ASIC, FPGA, 제어기, 마이크로 컨트롤러 등)일 수 있고, 하나의 프로세서 또는 동작적으로 연결된 하나 이상의 프로세서 또는 복수의 프로세서들일 수 있다. 메모리(134)는 RAM, ROM, EEPROM, EPROM, 플래시 메모리 디바이스, 자기 디스크 등과 같은 하나 이상의 비일시적 컴퓨터 판독가능 저장 매체 및 이들의 조합을 포함할 수 있다. 메모리(134)는 서버 컴퓨팅 시스템(130)이 동작을 수행하게 하기 위한 프로세서(132)에 의해 실행되는 데이터(136) 및 명령어들(138)을 저장할 수 있다.
일부 구현예에서, 서버 컴퓨팅 시스템(130)은 하나 이상의 서버 컴퓨팅 디바이스들을 포함하거나 이와 달리 그에 의해 구현된다. 서버 컴퓨팅 시스템(130)이 복수의 서버 컴퓨팅 디바이스들을 포함하는 경우에, 그러한 서버 컴퓨팅 디바이스들은 순차적 컴퓨팅 아키텍처, 병렬 컴퓨팅 아키텍처 또는 이들의 조합에 따라 동작할 수 있다.
상기 기술된 바와 같이, 서버 컴퓨팅 시스템(130)은 하나 이상의 기계 학습 인식가능성 모델(140)을 저장하거나 또는 포함할 수 있다. 예를 들어, 모델(140)은 다양한 기계 학습 모델일 수 있거나 이를 포함할 수 있다. 기계 학습 모델의 예는 신경 네트워크 또는 기타 멀티 레이어 비선형 모델을 포함한다. 예시적 신경 네트워크는 피드 포워드 신경 네트워크, 딥 신경 네트워크, 순환 신경 네트워크 및 컨벌루션 신경 네트워크를 포함한다.
추가적으로, 일부 구현예에서, 서버 컴퓨팅 시스템(130)은 하나 이상의 기계 학습 인식 모델들(144)을 저장하거나 또는 포함할 수 있다. 전술한 바와 같이, 인식가능성 모델(130)과 인식 모델(144)은 생체 정보를 저장하거나 생성하는 능력으로 구분될 수 있다. 일반적으로, 인식가능성 모델(140)은 모델에 제공된 정보가 (예를 들어, 인식 모델(144)를 사용하여) 생체 인식을 수행하기에 충분한 세부사항 또는 품질을 포함하는지 여부를 결정하기 위한 필터로서 사용될 수 있다.
사용자 컴퓨팅 디바이스(102) 및/또는 서버 컴퓨팅 시스템(130)은 네트워크(180)를 통해 통신적으로 연결된 트레이닝 컴퓨팅 시스템(150)과의 인터렉션을 통해 모델(120 및/또는 140)을 트레이닝할 수 있다. 트레이닝 컴퓨팅 시스템(150)은 서버 컴퓨팅 시스템(130)과 별개이거나 서버 컴퓨팅 시스템(130)의 일부일 수 있다.
세컨더리 컴퓨팅 디바이스(102)는 예를 들어 개인 컴퓨팅 디바이스(예: 랩톱 또는 데스크톱), 모바일 컴퓨팅 디바이스(예: 스마트폰 또는 태블릿), 게임 콘솔 또는 컨트롤러, 웨어러블 컴퓨팅 디바이스, 임베디드 컴퓨팅 디바이스, 홈 어시스턴트(예: 구글 홈 또는 아마존 알렉사) 또는 임의의 다른 유형의 컴퓨팅 디바이스와 같은 임의의 유형의 컴퓨팅 디바이스일 수 있다. 일반적으로, 세컨더리 컴퓨팅 디바이스는 하나 이상의 프로세서(172), 메모리(174), 인식 모델(182) 및 사용자 입력 컴포넌트(184)를 포함할 수 있다. 예시적 구현예에서, 세컨더리 컴퓨팅 디바이스(170)는 Google Home과 같은 AI 어시스턴트를 포함할 수 있는 IoT 디바이스일 수 있다. 추가적으로, 단일의 세컨더리 컴퓨팅 디바이스(170)로 예시되어 있지만, 세컨더리 컴퓨팅 디바이스(170)는 생체 인식(예를 들어, 얼굴 인식, 음성 인식, 지문 인식 등)을 수행하기 위한 인식 모델(182)을 포함하는 하나 이상의 연결된 디바이스를 나타낼 수 있다. 세컨더리 컴퓨팅 디바이스(170)의 하나의 양태는 이 디바이스가 인식가능성 점수를 결정하기 위해 인식가능성 모델(120 또는 140)을 포함할 필요가 없다는 것이다. 대신에, 세컨더리 컴퓨팅 디바이스(170)는 사용자 컴퓨팅 디바이스(120) 및/또는 서버 컴퓨팅 시스템(130)에 포함된 인식 모델(들)(120 및/또는 140)에 의해 결정된 인식가능성 점수에 적어도 부분적으로 기초하여 선택되었던 참조 파일들(예를 들어, 서버 컴퓨팅 시스템(130)에 저장된 데이터(136) 또는 사용자 컴퓨팅 디바이스에 저장된 데이터(116)로서)에 액세스할 수 있다. 이러한 방식으로, 세컨더리 컴퓨팅 디바이스(170)에 액세스를 시도하는 사용자는 각각의 세컨더리 컴퓨팅 디바이스(170)에 대한 등록을 수행할 필요가 없다.
트레이닝 컴퓨팅 시스템(150)은 하나 이상의 프로세서들(152) 및 메모리(154)를 포함한다. 하나 이상의 프로세서들(152)은 임의의 적절한 프로세싱 디바이스(예를 들어, 프로세서 코어, 마이크로 프로세서, ASIC, FPGA, 제어기, 마이크로 컨트롤러 등)일 수 있고, 하나의 프로세서 또는 동작적으로 연결된 하나 이상의 프로세서 또는 복수의 프로세서들일 수 있다. 메모리(154)는 RAM, ROM, EEPROM, EPROM, 플래시 메모리 디바이스, 자기 디스크 등과 같은 하나 이상의 비일시적 컴퓨터 판독가능 저장 매체 및 이들의 조합을 포함할 수 있다. 메모리(154)는 트레이닝 컴퓨팅 시스템(150)이 동작을 수행하게 하기 위한 프로세서(152)에 의해 실행되는 데이터(156) 및 명령어들(158)을 저장할 수 있다. 일부 구현예에서, 트레이닝 컴퓨팅 시스템(150)은 하나 이상의 서버 컴퓨팅 디바이스들을 포함하거나 이와 달리 그에 의해 구현된다.
트레이닝 컴퓨팅 시스템(150)은, 예를 들어 에러의 역방향 전파와 같은 다양한 트레이닝 또는 학습 기법을 사용하여, 사용자 컴퓨팅 디바이스(102) 및/또는 서버 컴퓨팅 시스템(130)에 저장된 기계 학습 모델(120 및/또는 140)을 트레이닝하는 모델 트레이너(160)를 포함할 수 있다. 일부 구현예에서, 에러의 역방향 전파를 수행하는 것은 시간을 통한 잘린 역 전파(truncated backpropagation through time)를 수행하는 것을 포함할 수 있다. 모델 트레이너(160)는 트레이닝되는 모델의 일반화 능력을 향상시키기 위해 다수의 일반화 기법들(예를 들어, 가중치 감소, 드롭 아웃 등)을 수행할 수 있다.
특히, 모델 트레이너(160)는 일련의 트레이닝 데이터(162)에 기초하여 인식가능성 모델(120 및/또는 140)을 트레이닝할 수 있다. 트레이닝 데이터(162)는 예를 들어, 음성 인식을 수행하도록 구성된 모델과 같은 하나 이상의 기계 학습 모델로부터의 출력을 포함할 수 있다. 이러한 하나 이상의 기계 학습 모델은 3개 이상의 히든 레이어들을 생성하도록 구성된 신경 네트워크들을 포함할 수 있다. 예시적 구현예에서, 인식가능성 모델(120 및/또는 140)은 신경 네트워크의 출력보다는 하나 이상의 신경 네트워크들에 의해 생성된 히든 레이어(들)의 피처들을 사용하여 트레이닝될 수 있다. 추가로, 일부 경우에, 히든 레이어들의 피처들은 메트릭(예를 들어, 놈)을 사용하여 요약될 수 있고, 인식가능성 모델(120 및/또는 140)은 메트릭을 포함하는 트레이닝 데이터(162)를 사용하여 트레이닝될 수 있다. 예를 들어, 얼굴 인식을 위한 증류 모델을 학습하는 것은 작은 썸네일 이미지들을 입력하고 마지막에서 두 번째 히든 레이어로부터 결정된 메트릭(예: L2 Norm 값)으로 직접 회귀하는 네트워크를 활용할 수 있다.
일부 구현예에서, 사용자가 동의를 제공하면, 트레이닝 예시들은 사용자 컴퓨팅 디바이스(102)에 의해 제공될 수 있다. 따라서, 이러한 구현예에서, 사용자 컴퓨팅 디바이스(102)에 제공되는 모델(120)은 사용자 컴퓨팅 디바이스(102)로부터 수신된 사용자 특정 데이터에 대한 트레이닝 컴퓨팅 시스템(150)에 의해 트레이닝될 수 있다. 일부 경우에, 이 프로세스를 모델 개인화로 지칭될 수 있다.
모델 트레이너(160)는 원하는 기능을 제공하기 위해 활용되는 컴퓨터 로직을 포함한다. 모델 트레이너(160)는 범용 프로세서를 제어하는 하드웨어, 펌웨어 및/또는 소프트웨어로 구현될 수 있다. 예를 들어, 일부 구현예에서, 모델 트레이너(160)는 저장 디바이스에 저장된 프로그램 파일을 포함하고, 메모리에 로딩되고 하나 이상의 프로세서에 의해 실행된다. 다른 구현예에서, 모델 트레이너(160)는 RAM 하드 디스크 또는 광학 또는 자기적 매체와 같은 유형적 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 실행가능 명령어들의 하나 이상의 세트들을 포함한다.
네트워크(180)는 근거리 네트워크(예를 들어, 인트라넷), 광역 네트워크(예를 들어, 인터넷) 또는 그들의 조합과 같은 임의의 유형의 통신 네트워크일 수 있고, 임의의 수의 유선 또는 무선 링크들을 포함할 수 있다. 일반적으로, 네트워크(180)를 통한 통신은 임의의 유형의 유선 및/또는 무선 연결을 사용하여, 다양한 통신 프로토콜들(예를 들어, TCP/IP, HTTP, SMTP, FTP), 인코딩 또는 포맷들(예를 들어, HTML, XML), 및/또는 보호 스키마(예를 들어, VPN, 시큐어 HTTP, SSL)를 통해 수행될 수 있다.
도 1a는 본 발명을 구현하는데 사용될 수 있는 하나의 예시적 컴퓨팅 시스템을 도시한다. 다른 컴퓨팅 시스템도 사용될 수 있다. 예를 들어, 일부 구현예에서, 사용자 컴퓨팅 디바이스(102)는 모델 트레이너(160) 및 트레이닝 데이터 세트(162)를 포함할 수 있다. 이러한 구현예에서, 모델(120)은 사용자 컴퓨팅 디바이스(102)에서 로컬적으로 트레이닝되고 사용될 수 있다. 일부 구현예에서, 사용자 컴퓨팅 디바이스(102)는 사용자 특정 데이터에 기초하여 모델(120)을 개인화하기 위해 모델 트레이너(160)를 구현할 수 있다.
도 1b는 본 발명의 예시적 실시예에 따라 디바이스들의 네트워크에서 등록을 수행하는 예시적 컴퓨팅 디바이스(10)의 블록도를 도시한다. 컴퓨팅 디바이스(10)는 사용자 컴퓨팅 디바이스 또는 서버 컴퓨팅 디바이스일 수 있다.
컴퓨팅 디바이스(10)는 다수의 애플리케이션(예를 들어, 애플리케이션 1 내지 애플리케이션 N)을 포함할 수 있다. 각 애플리케이션은 자체적 기계 학습 라이브러리 및 기계 학습 모델(들)을 포함할 수 있다. 예를 들어, 각 애플리케이션은 기계 학습 모델을 포함할 수 있다. 예시적 애플리케이션은 문자 메시지 애플리케이션, 퍼스널 어시스턴트 애플리케이션, 이메일 애플리케이션, 받아쓰기 애플리케이션, 가상 키보드 애플리케이션, 브라우저 애플리케이션 등을 포함한다.
도 1b에 도시된 바와 같이, 각 애플리케이션은 예를 들어, 하나 이상의 센서, 컨텍스트 관리자, 디바이스 상태 컴포넌트 및/또는 추가 컴포넌트들과 같은 컴퓨팅 디바이스의 다수의 다른 컴포넌트들과 통신할 수 있다. 일부 구현예에서, 각 애플리케이션은 API(예를 들어, 퍼블릭 API)를 사용하여 각 디바이스 컴포넌트와 통신할 수 있다. 일부 구현예에서 각 애플리케이션에 의해 사용되는 API는 해당 애플리케이션에 대해 특정적이다.
도 1c는 본 발명의 예시적 실시예에 따라 수행하는 예시적 컴퓨팅 디바이스(50)의 블록도를 도시한다. 컴퓨팅 디바이스(50)는 사용자 컴퓨팅 디바이스 또는 서버 컴퓨팅 디바이스일 수 있다.
컴퓨팅 디바이스(50)는 다수의 애플리케이션(예를 들어, 애플리케이션 1 내지 애플리케이션 N)을 포함한다. 각 애플리케이션은 중앙 인텔리전스 레이어와 통신한다. 예시적 애플리케이션은 문자 메시지 애플리케이션, 이메일 애플리케이션, 받아쓰기 애플리케이션, 가상 키보드 애플리케이션, 브라우저 애플리케이션 등을 포함한다. 일부 구현예에서, 각 애플리케이션은 API(예: 모든 애플리케이션에 걸쳐 공통 API)를 사용하여 중앙 인텔리전스 레이어(및 그 안에 저장된 모델)과 통신할 수 있다.
중앙 인텔리전스 레이어는 다수의 기계 학습 모델들을 포함한다. 예를 들어,도 1c에 도시된 바와 같이, 각각의 기계 학습 모델(예: 모델)은 각 애플리케이션에 대해 제공될 수 있고, 중앙 인텔리전스 레이어에 의해 관리될 수 있다. 다른 구현예에서, 2개 이상의 애플리케이션들은 단일의 기계 학습 모델을 공유할 수 있다. 예를 들어, 일부 구현예에서, 중앙 인텔리전스 레이어는 모든 애플리케이션에 대해 단일 모델(예를 들어, 단일 모델)을 제공할 수 있다. 일부 구현예에서, 중앙 인텔리전스 레이어는 컴퓨팅 디바이스(50)의 운영 체제 내에 포함되거나 이와 다르게 구현될 수 있다.
중앙 인텔리전스 레이어는 중앙 디바이스 데이터 레이어와 통신할 수 있다. 중앙 디바이스 데이터 레이어는 컴퓨팅 디바이스(50)에 대한 중앙 집중식 데이터 저장소일 수 있다. 도 1c에 도시된 바와 같이, 중앙 디바이스 데이터 레이어는 예를 들어, 하나 이상의 센서, 컨텍스트 관리자, 디바이스 상태 컴포넌트 및/또는 추가 컴포넌트들과 같은 컴퓨팅 디바이스의 다수의 다른 컴포넌트들과 통신할 수 있다. 일부 구현예에서, 중앙 디바이스 데이터 레이어는 API(예를 들어, 사설 API)를 사용하여 각 디바이스 컴포넌트와 통신할 수 있다.
예시적 모델 구성
도 2는 본 개시의 예시적 실시예에 따른 예시적 디바이스들의 네트워크를 도시한다. 도면에 도시된 바와 같이, 디바이스들의 네트워크는 모바일 컴퓨팅 디바이스(202), 클라우드 또는 서버 컴퓨팅 디바이스(203) 및 컴퓨터 어시스턴트 디바이스와 같은 보조 또는 세컨더리 디바이스(205)와 같은 적어도 3개의 디바이스들을 포함할 수 있다. 세컨더리 디바이스(205)는 또한 정보(예를 들어, 새로운 이미지와 같은 새로운 파일)를 획득하기 위한 카메라 또는 마이크로폰과 같은 센서(206)를 포함할 수 있다. 예시적인 구현예에서, 디바이스들의 네트워크에서 등록을 수행하는 사람(201)은 모바일 컴퓨팅 디바이스(202)를 사용하여 사람(201)을 표현하는 하나 이상의 파일들을 포함하는 데이터세트를 획득할 수 있다. 예를 들어, 이러한 파일은 사진, 사운드 또는 기타 식별 정보를 포함할 수 있다. 모바일 컴퓨팅 디바이스(202) 또는 클라우드 컴퓨팅 디바이스(203)에서, 클라우드 컴퓨팅 디바이스(203) 상의 참조 파일로서 저장하기 위해 통신 네트워크(204)를 통해 전송되어야 하는 파일이 있다면, 그 파일 중 어느 것이 전송되어야 하는지를 결정하기 위해 인식가능성 모델이 사용될 수 있다. 등록 후, 사람(201)이 컴퓨터 어시스턴트 디바이스(205)와 같은 네트워크에 포함된 다른 디바이스를 등록하도록 요청하는 경우, 컴퓨터 어시스턴트 디바이스(205)는 모바일 컴퓨팅 디바이스(202) 및/또는 클라우드 컴퓨팅 디바이스(203)로부터 참조 파일(들)에 액세스하거나 참조 파일(들)을 수신하여 (예를 들어, 기계 학습 인식 모델을 사용하여) 생체 분석을 수행한다.
도 3는 본 발명의 예시적 실시예에 따른 예시적 디바이스들의 네트워크의 블록도를 도시한다. 도 3은 도 2의 예시적인 경우를 제공하며, 여기서 적어도 3개의 디바이스들 각각은 특정 컴포넌트를 포함하거나 특정 동작을 수행하는 것으로 도시된다. 도 3에서, 모바일 컴퓨팅 디바이스(300)는 디바이스들의 네트워크에서 등록을 수행하는 사람을 표현하는 이미지(302)를 획득하기 위한 이미지 캡처 디바이스(301)를 포함하는 것으로 예시되어 있다. 이러한 이미지들(302)은 이미지들(302)이 한 명 이상의 사람을 포함하는 경우에 대해 이미지들(302)을 식별하거나 검출된 사람들(304)로 그룹화하기 위해 이미지 프로세서(303)에 제공될 수 있다. 예를 들어, 이미지 프로세서(303)는 오브젝트 검출 모델 또는 프로세스를 적용하여 이미지들(302)에서 사람들을 검출할 수 있다.
그런 다음, 검출된 사람들(304)의 그룹화는 본 명세서에 기술된 기계 학습된 증류 모델 또는 인식가능성 모델과 같은 사람 인식가능성 분석기(305)에 제공될 수 있다. 사람 인식가능성 분석기(305)에 의해 결정된 인식가능성 점수에 적어도 부분적으로 기초하여, 사람 이미지 선택기(306)는 특정 사용자 또는 사람에 대해 생성될 수 있는 갤러리(321)에 포함된 참조 이미지들(322)로서 클라우드 컴퓨팅 디바이스(320)에 전송할 이미지들 및 선택된 사람들을 별도로 결정할 수 있다. 도 3에 2개의 별개의 구성으로 도시되어 있지만, 사람 인식가능성 분석기(305) 및 사람 이미지 선택기(306)는 인식가능성 모델 및 이와 연관된 로직의 단일 동작으로 구현될 수 있다. 마찬가지로, 컴포넌트(303-306)가 모바일 컴퓨팅 디바이스(300)에 도시되어 있지만, 이들 컴포넌트의 일부 또는 전부는 대신 클라우드 컴퓨팅 디바이스(320)에 포함되거나 수행될 수 있다.
또한 도 3은 컴퓨터 어시스턴트 디바이스(310)로서 도시된 제3 디바이스가 도시되어 있다. 이 디바이스(310)는 디바이스(310) 또는 디바이스(310)에 의해 수행되는 애플리케이션에 액세스를 시도하는 사람을 표현하는 추가 이미지들(312)을 획득하기 위해 사용될 수 있는 이미지 캡처 디바이스(311)를 포함하는 것으로 도시된다. 디바이스(310)는 또한 이미지와 연관된 생체 정보를 분석하기 위해 이미지들(예를 들어, 이미지들(312) 및/또는 이미지들(322))에 대한 생체 분석을 수행하는 사람 생체 분석기(315)를 포함한다. 예를 들어, 사람 생체 분석기(315)는 본 명세서에 기술된 바와 같은 기계 학습 인식 모델을 포함하거나 이용할 수 있다. 인식 모델의 한 예는 FaceNet, 그 파생물 등이다. Schroff et al., FaceNet: A Unified Embedding for Face Recognition and Clustering (https://arxiv.org/abs/1503.03832)을 보면, 거리가 입력의 얼굴 유사성 측정에 직접 대응하는 입력 쌍에 대한 임베딩 쌍을 생성하기 위해 인식 모델을 트레이닝하는데 사용될 수 있는 예시적 트리플렛 트레이닝 프로세스를 제공한다.
컴퓨터 어시스턴트 디바이스(310)가 한 명 이상의 사람(314)을 검출하기 위한 이미지 프로세서(313)를 포함하는 것으로 도시되어 있지만, 이러한 엘리먼트가 존재할 필요는 없으며, 이미지 캡처 디바이스(311)에 의해 촬영된 이미지들(312)은 임베딩, 측정 또는 구별되는 피처들의 위치 등과 같은 사람 외모 생체를 결정하기 위해 사람 생체 분석기(315)에 직접 입력될 수 있다. 동일하거나 다른 생체 분석기(315)를 사용하여 사용자 참조 이미지들(322)을 프로세싱하는데 사용되어 예를 들어 사람 외모 식별자(예: 각각의 임베딩들(예: 그들 사이의 거리), 각각의 피처들 등을 비교할 수 있음) 사람 외모 생체(317)에 비교될 수 있는 사용자의 이미지들(321)의 갤러리로부터 생체 정보(316)를 결정하여, 이미지들(312)에 도시된 특정 사람이 사용자들의 이미지들(321)의 갤러리에 포함되는지 여부를 식별하기 위해 신뢰 점수를 생성한다.
예시적 방법들
도 4은 본 발명의 예시적 실시예에 따라 수행하기 위한 예시적 방법의 흐름도를 도시한다. 도 6은 도시 및 설명을 위해 특정한 순서로 수행된 단계들을 도시하고 있지만, 본 발명의 방법은 특별히 설명된 순서 또는 구성에 한정되지 않는다. 방법(600)의 다양한 단계들은 본 발명의 범위를 벗어나지 않고 다양한 방식으로 생략, 재배열, 결합 및/또는 구성될 수 있다.
402에서, 컴퓨팅 시스템은 제1 디바이스 상의 사람을 표현하는 하나 이상의 파일들을 포함하는 데이터세트를 획득할 수 있다. 제1 디바이스는 카메라 또는 다른 이미지 캡처 디바이스 및/또는 마이크로폰과 같은 내장 컴포넌트를 포함하는 스마트폰 또는 개인 컴퓨터와 같은 개인 컴퓨팅 디바이스를 포함할 수 있다. 제1 디바이스의 추가 피처들은 이미지에 한 명 이상의 사람이 존재하는지 검출하도록 구성될 수 있는 이미지 프로세서를 포함할 수 있다.
404에서, 컴퓨팅 시스템은 각각의 파일을 증류 모델에 제공함으로써 하나 이상의 파일들 각각에 대한 인식가능성 점수를 결정할 수 있으며, 증류 모델은 신경 네트워크의 하나 이상의 히든 레이어들로부터 계산된 메트릭을 사용하여 트레이닝되었다. 일반적으로 인식가능성 점수는 파일들을 제2 디바이스로 전송하기 전에 계산될 수 있다. 따라서 인식가능성 모델은 인식가능성 점수를 결정하기 위해 제1 디바이스에서 구현되거나 제1 디바이스에 의해 액세스될 수 있다. 저장 및 컴퓨팅 비용을 최소화하는 것이 바람직하지만, 클라우드 서비스는 제1 디바이스에서 생성된 임의의 파일들을 제2 디바이스(예: 서버)에 자동으로 업로드할 수 있다. 따라서 일부 구현예에서, 인식가능성 점수를 결정하는 것은 제2 디바이스에서 수행될 수 있다.
406에서, 컴퓨팅 시스템은 인식가능성 점수에 적어도 부분적으로 기초하여 참조 파일 또는 파일들로서 저장할 데이터세트의 일부를 선택할 수 있다. 일반적으로, 참조 파일(들)로서 저장할 데이터세트의 일부를 선택하는 것은 참조 파일(들)을 제2 디바이스에 전송하는 것을 포함할 수 있다. 대안적으로 또는 추가적으로, 선택하는 것은 네트워크에 포함된 다른 디바이스들에 의해 액세스될 수 있는 사용자의 이미지들 또는 기록들의 갤러리와 같은 참조 파일(들)을 저장하기 위한 참조 위치를 지정하는 것을 포함할 수 있다. 이와 같이, 제2 디바이스에 직접 업로드된 파일들이 필터링되어 사람이 네트워크에 포함된 디바이스에 액세스를 시도할 때 지정된 참조 파일(들)만이 생체 인식 동안에 액세스될 수 있도록 한다.
도 5는 본 개시에 따른 특정 방법 및 시스템의 예시적 양태를 도시한다. 일부 구현현의 경우, 방법 및 시스템은 트레이닝된 인식가능성 모델 및/또는 인식가능성 모델을 트레이닝하는 것을 포함할 수 있다. 도 5는 본 개시에 따른 인식가능성 모델(500)을 트레이닝하기 위한 예시적 방법을 디스플레이하는 블록 흐름도를 도시한다. 도 5는 복수의 히든 레이어들(508)을 포함하는 신경 네트워크로 구성된 인식 모델(506)에 제공되는 복수의 입력들(502)을 도시한다. 인식 모델(506)은 입력들(504) 중 하나를 인식 모델(506)에 제공하는 것에 부분적으로 기초하여 복수의 히든 레이어들(508)을 생성할 수 있다. 그런 다음, 히든 레이어들(예를 들어, 숨겨진 레이어 N(508)) 중 하나 이상은 숨겨진 레이어(508)에 포함된 피처들의 놈과 같은 메트릭(512)을 결정하기 위해 추출될 수 있다. 상기 복수의 입력들(502)에 포함된 각각의 입력(504)에 대해 이 프로세스를 계속하면, 입력들 각각에 대해 계산된 메트릭을 생성할 수 있다. 입력들의 세트 및 계산된 메트릭들(514)은 증류 기법을 사용하여 인식가능성 모델을 트레이닝하는데 사용될 수 있다. 이러한 방식으로, 인식가능성 모델은 메트릭(512)을 결정하기 위해 사용된 각각의 입력을 수신하는 것에 적어도 부분적으로 기초하여 계산된 메트릭(512)을 결정하도록 트레이닝될 수 있다. 일부 구현예에 대해, 인식 모델(506)은 메트릭(512)을 생성하는데 사용되는 히든 레이어(508)를 생성한 후에 임의의 추가 히든 레이어(508) 또는 출력(510)을 결정하지 않도록 구성될 수 있다. 따라서, 인식가능성 모델(500)을 트레이닝하는 동안 사용되는 인식 모델(506)은 도 1a에 도시된 바와 같은 디바이스들의 네트워크에 포함된 인식 모델(들)과 동일할 필요는 없다.
추가 개시
본 명세서에 논의된 기술은 서버, 데이터베이스, 소프트웨어 애플리케이션들 및 다른 컴퓨터 기반 시스템들 뿐만 아니라 취해진 액션들 및 상기 시스템으로 전송되거나 그로부터 전송된 정보를 참조할 수 있다. 컴퓨터 기반 시스템들의 내재적 유연성은 광범위한 가능한 구성들, 조합들 및 작업의 분할 및 컴포넌트들 간의 및 그로부터의 기능성을 허용함을 인식할 것이다. 예를 들어, 본 명세서에서 논의된 프로세스들은 단일의 디바이스 또는 컴포넌트 또는 조합으로 작동하는 다수의 디바이스들 또는 컴포넌트들을 사용하여 구현될 수 있다. 데이터베이스 및 애플리케이션들은 단일 시스템 또는 다수의 시스템들에 걸쳐 분산된 시스템에서 구현될 수 있다. 분산 컴포넌트들은 순차적으로 또는 병렬로 동작할 수 있다.
본 발명의 주제가 그 다양한 특정 예시적 실시예와 관련하여 상세히 설명되었지만, 각 예시는 본 발명의 설명을 위한 것이지 본 발명의 한정을 위한 것은 아니다. 통상의 기술자는 전술한 내용을 이해할 때 상기 실시예에 대한 변형, 변형 및 균등물을 용이하게 생성할 수 있다. 따라서, 본 발명은 통상의 기술자에게 쉽게 명백해질 수 있는 상기 수정, 변형 및/또는 본 발명에 대한 추가의 포함을 배제하지 않는다. 예를 들어, 일 실시예의 일부로서 도시되거나 기술된 구성들은 여전히 추가적 실시예를 만들어내기 위해 다른 실시예와 함께 사용될 수 있다. 따라서, 본 발명은 상기 수정들 및 변형들을 커버하도록 의도되었다.

Claims (29)

  1. 컴퓨팅 시스템으로서,
    하나 이상의 프로세서 및 명령어를 집합적으로 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 매체를 포함하는 등록 디바이스를 포함하며, 상기 명령어는 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 등록 디바이스가:
    등록 프로세스를 수행하고 있는 사용자를 도시하는 복수의 이미지들을 획득하고;
    기계 학습된 인식가능성 모델을 사용하여 상기 복수의 이미지들 각각을 프로세싱하여 각 이미지에 대한 각각의 인식가능성 점수를 상기 기계 학습된 인식가능성 모델의 출력으로서 결정하고, 각 이미지에 대한 상기 인식가능성 점수는 상기 이미지에 의해 도시된 상기 사용자의 인식가능성을 표시하고 상기 사용자와 연관된 생체 정보는 제외하며;
    상기 복수의 이미지들에 대한 각각의 인식가능성 점수에 적어도 부분적으로 기초하여, 상기 사용자와 연관된 이미지 갤러리에 포함시키기 위해 상기 복수의 이미지들 중 적어도 하나를 선택하고; 그리고
    하나 이상의 세컨더리 컴퓨팅 디바이스들에 의한 상기 사용자의 인식에 사용하기 위해 상기 이미지 갤러리를 하나 이상의 세컨더리 컴퓨팅 디바이스들에 직접 또는 간접적으로 전송하도록 구성하는, 컴퓨팅 시스템.
  2. 청구항 1에 있어서,
    상기 하나 이상의 세컨더리 컴퓨팅 디바이스들은:
    상기 이미지 갤러리를 수신하고 저장하고;
    사람을 도시하는 추가 이미지를 획득하고; 그리고
    상기 추가 이미지에 도시된 사람이 상기 사용자인지 여부를 결정하기 위해 상기 추가 이미지를 상기 이미지 갤러리와 비교하도록 구성되는, 컴퓨팅 시스템.
  3. 임의의 선행하는 청구항에 있어서, 상기 하나 이상의 세컨더리 컴퓨팅 디바이스들은 서버 컴퓨팅 디바이스를 포함하는, 컴퓨팅 시스템.
  4. 임의의 선행하는 청구항에 있어서, 상기 하나 이상의 세컨더리 컴퓨팅 디바이스들은 컴퓨터 어시스턴트 디바이스를 포함하는, 컴퓨팅 시스템.
  5. 임의의 선행하는 청구항에 있어서, 상기 하나 이상의 세컨더리 컴퓨팅 디바이스들은 서버 컴퓨팅 디바이스를 포함하며, 상기 서버 컴퓨팅 디바이스는:
    상기 등록 디바이스로부터 상기 이미지 갤러리를 수신하고; 그리고
    상기 하나 이상의 추가 디바이스를 상기 사용자와 연관된 사용자 계정에 등록하기 위한 상기 사용자로부터의 요청에 응답하여, 상기 이미지 갤러리를 하나 이상의 추가 디바이스들에 선택적으로 포워딩하도록 구성되는, 컴퓨팅 시스템.
  6. 임의의 선행하는 청구항에 있어서, 상기 등록 디바이스는 상기 사용자와 연관된 사용자 디바이스를 포함하는, 컴퓨팅 시스템.
  7. 임의의 선행하는 청구항에 있어서, 상기 등록 디바이스는 서버 컴퓨팅 디바이스를 포함하고, 상기 서버 컴퓨팅은 상기 복수의 이미지들을 캡처하고 상기 사용자와 연관된 사용자 디바이스로부터 상기 복수의 이미지들을 획득하는, 컴퓨팅 시스템.
  8. 임의의 선행하는 청구항에 있어서, 상기 하나 이상의 세컨더리 컴퓨팅 디바이스들 각각은 상기 이미지에 대한 얼굴 임베딩을 획득하는 기계 학습 얼굴 인식을 사용하여 상기 이미지 갤러리에 포함된 상기 이미지들 각각을 프로세싱하도록 구성되며, 상기 얼굴 임베딩은 상기 사용자와 연관된 상기 생체 정보를 포함하는, 컴퓨팅 시스템.
  9. 임의의 선행하는 청구항에 있어서, 상기 기계 학습 인식가능성 모델은 상기 기계 학습 인식가능성 모델이 입력 이미지에 대해 얼굴 임베딩을 생성하도록 구성된 기계 학습 얼굴 인식 모델의 히든 레이어에 의해 생성된 히든 레이어 출력의 놈(norm)을 예측하도록 트레이닝되는 증류 트레이닝 기법을 통해 학습되는, 컴퓨팅 시스템.
  10. 디바이스들의 네트워크에 걸쳐 개인 식별을 등록하기 위한 컴퓨터로 구현되는 방법에 있어서,
    하나 이상의 컴퓨팅 디바이스들에 의해, 제1 디바이스 상의 사람을 표현하는 하나 이상의 파일들을 포함하는 데이터세트를 획득하는 단계;
    상기 하나 이상의 컴퓨팅 디바이스에 의해, 각각의 파일을 기계 학습 증류 모델에 제공함으로써 상기 하나 이상의 파일들 각각에 대한 인식가능성 점수를 결정하는 단계, 상기 증류 모델은 신경 네트워크의 하나 이상의 히든 레이어들로부터 계산된 메트릭을 사용하여 트레이닝되며; 및
    상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 인식가능성 점수에 적어도 부분적으로 기초하여, 상기 사람에 대한 참조 파일 또는 파일들로서 저장할 상기 데이터세트의 일부를 선택하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
  11. 청구항 10에 있어서, 상기 참조 파일 또는 파일들로서 저장할 상기 데이터세트의 일부를 선택하는 단계는:
    상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 하나 이상의 파일들 각각에 대한 상기 인식가능성 점수를 임계값과 비교하는 단계; 및
    상기 인식가능성 점수들 중 어느 것도 임계값을 충족하지 않는 경우:
    상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 사람이 추가 파일들을 생성하도록 요청하는 프롬프트를 상기 제1 디바이스에 제공하는 단계;
    상기 데이터세트가 포함된 하나 이상의 파일들에 대한 상기 인식가능성 점수가 임계값을 충족하는 경우:
    상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 파일 또는 파일들을 제2 디바이스에 전송하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
  12. 청구항 11에 있어서,
    상기 제2 디바이스는 클라우드 컴퓨팅 디바이스 또는 서버 컴퓨팅 디바이스를 포함하고, 상기 제2 디바이스는 통신 네트워크를 통해 디바이스들의 네트워크에 포함된 적어도 하나의 다른 디바이스와 통신하는, 컴퓨터로 구현되는 방법.
  13. 청구항 10 내지 12 중 어느 한 항에 있어서,
    상기 하나 이상의 컴퓨팅 디바이스들에 의해, 디바이스들의 네트워크에 포함된 상기 디바이스들 중 하나에 액세스하기 위해 상기 디바이스들 중 하나 또는 둘 모두에 의해 수행되는 동작을 시도하는 단계, 상기 액세스하기 위해 시도하는 단계는 상기 하나 이상의 컴퓨팅 디바이스들에 의해 생체 분석을 수행하는 단계를 포함하고, 상기 생체 분석을 수행하는 단계는:
    상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 사람을 표현하는 정보를 포함하는 신호를 획득하는 단계;
    상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 참조 파일 또는 파일들에 액세스하는 단계;
    상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 참조 파일 또는 파일들을 상기 신호와 비교하는 단계; 및
    상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 참조 파일을 상기 신호와 비교하는 것에 적어도 부분적으로 기초하여, 액세스 시도를 허용하거나 거부하는 응답을 제공하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
  14. 청구항 13에 있어서, 상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 사람을 표현하는 정보를 포함하는 상기 신호를 획득하는 단계는 제3 디바이스에 의해 상기 사람을 표현하는 정보를 포함하는 상기 신호를 획득하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
  15. 청구항 14에 있어서, 상기 제3 디바이스는 시각, 오디오 또는 텍스트 입력 중 적어도 하나를 포함하는 입력을 수신하도록 구성된 컴퓨터 어시스턴트를 포함하며; 상기 입력에 적어도 부분적으로 기초하여 출력을 제공하는, 컴퓨터로 구현되는 방법.
  16. 청구항 13 내지 15 중 어느 한 항에 있어서, 상기 참조 파일 또는 파일들을 파일들의 세트와 비교하는 단계는:
    상기 하나 이상의 컴퓨팅 디바이스들에 의해, 기계 학습 모델에 상기 참조 파일 또는 파일들을 제공함으로써 생체 정보의 세트를 결정하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
  17. 청구항 16에 있어서, 상기 기계 학습 모델은 신경 네트워크를 포함하고, 상기 생체 정보의 세트는 상기 신경 네트워크에 의해 생성된 임베딩을 포함하는, 컴퓨터로 구현되는 방법.
  18. 청구항 10 내지 17 중 어느 한 항에 있어서, 상기 제1 디바이스는 모바일 컴퓨팅 디바이스를 포함하는, 컴퓨터로 구현되는 방법.
  19. 청구항 10 내지 18 중 어느 한 항에 있어서, 상기 제1 디바이스는 시각, 오디오 또는 텍스트 중 적어도 하나를 포함하는 입력을 수신하도록 구성된 컴퓨터 어시스턴트를 포함하며; 상기 입력에 적어도 부분적으로 기초하여 출력을 제공하는, 컴퓨터로 구현되는 방법.
  20. 청구항 10 내지 19 중 어느 한 항에 있어서, 상기 하나 이상의 파일들은 오디오, 비디오, 사진 또는 이들의 조합을 포함하는, 컴퓨터로 구현되는 방법.
  21. 청구항 10 내지 20 중 어느 한 항에 있어서, 상기 제 1 디바이스는 생체 식별자를 계산하는 것이 금지되는, 컴퓨터로 구현되는 방법.
  22. 청구항 21에 있어서, 상기 생체 식별자는 인식 신경 네트워크에 의해 생성된 임베딩을 포함하는, 컴퓨터로 구현되는 방법.
  23. 청구항 10 내지 22 중 어느 한 항에 있어서, 상기 증류 모델은 트레이닝 방법을 사용하여 트레이닝되며, 상기 트레이닝 방법은:
    상기 하나 이상의 컴퓨팅 디바이스들에 의해, 입력을 수신하면 일련의 히든 레이어들을 계산하도록 트레이닝된 인식 신경 네트워크를 획득하는 단계;
    상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 인식 신경 네트워크에 복수의 입력들을 제공함으로써 복수의 출력을 결정하는 단계, 상기 복수의 출력들의 각각의 출력은 각각의 입력과 연관되고, 각각의 출력은 상기 일련의 히든 레이어들 중 적어도 하나의 히든 레이어로부터 적어도 하나의 중간 출력을 포함하며;
    상기 하나 이상의 컴퓨팅 디바이스들에 의해, 각각의 출력에 대해, 상기 일련의 히든 레이어들 중 적어도 하나의 히든 레이어로부터의 적어도 하나의 중간 출력에 대한 메트릭을 계산하는 단계; 및
    상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 메트릭을 계산하기 위한 적어도 하나의 중간 출력을 결정하는데 사용되는 입력을 수신하는 것에 적어도 부분적으로 기초하여 상기 메트릭을 예측하도록 상기 증류 모델을 트레이닝하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
  24. 청구항 23에 있어서, 상기 메트릭은 상기 적어도 하나의 중간 출력의 놈(norm)을 포함하는, 컴퓨터로 구현되는 방법.
  25. 청구항 23 또는 24에 있어서, 상기 인식 신경 네트워크는 3개 이상의 히든 레이어들을 결정하도록 구성되고, 상기 메트릭을 계산하는데 사용되는 상기 적어도 하나의 히든 레이어 또는 레이어들은 제1 레이어 또는 상기 3개 이상의 히든 레이어들 중 마지막 레이어를 포함하지 않는, 컴퓨터로 구현되는 방법.
  26. 청구항 23 내지 25 중 어느 한 항에 있어서, 상기 인식 신경 네트워크는 상기 메트릭을 계산하기 위해 사용된 적어도 하나의 히든 레이어 또는 레이어들 이후에 더 이상의 히든 레이어들을 결정하지 않도록 구성되는, 컴퓨터로 구현되는 방법.
  27. 청구항 10 내지 26 중 어느 한 항의 방법을 수행하도록 구성된 컴퓨팅 시스템.
  28. 청구항 1 내지 9 중 어느 한 항에 기재된 단계 중 임의의 단계를 수행하는 것을 포함하는, 컴퓨터로 구현되는 방법.
  29. 청구항 1 내지 26 중 어느 한 항에 기재된 단계 중 임의의 단계를 수행하기 위한 명령어를 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 매체.
KR1020217043277A 2019-08-14 2019-08-14 디바이스들의 네트워크에서 사람 인식가능성을 사용하는 시스템 및 방법 KR20220016217A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2019/046452 WO2021029881A1 (en) 2019-08-14 2019-08-14 Systems and methods using person recognizability across a network of devices

Publications (1)

Publication Number Publication Date
KR20220016217A true KR20220016217A (ko) 2022-02-08

Family

ID=67766431

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217043277A KR20220016217A (ko) 2019-08-14 2019-08-14 디바이스들의 네트워크에서 사람 인식가능성을 사용하는 시스템 및 방법

Country Status (6)

Country Link
US (1) US20220254190A1 (ko)
EP (1) EP3973441A1 (ko)
JP (1) JP2022544349A (ko)
KR (1) KR20220016217A (ko)
CN (1) CN114127801A (ko)
WO (1) WO2021029881A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366291B2 (en) * 2017-09-09 2019-07-30 Google Llc Systems, methods, and apparatus for providing image shortcuts for an assistant application
CN113011440B (zh) * 2021-03-19 2023-11-28 中联煤层气有限责任公司 一种煤层气井井场监控重识别技术
WO2022240832A1 (en) * 2021-05-10 2022-11-17 Kinectify, Inc. Methods and system for authorizing a transaction related to a selected person
KR102672425B1 (ko) * 2021-07-19 2024-06-04 엘지전자 주식회사 가전 장치 및 상기 가전 장치를 제어하는 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3583892B2 (ja) * 1997-02-26 2004-11-04 沖電気工業株式会社 ネットワークセキュリティ方法
US6993166B2 (en) * 2003-12-16 2006-01-31 Motorola, Inc. Method and apparatus for enrollment and authentication of biometric images
JP4403426B2 (ja) * 2007-01-09 2010-01-27 サイレックス・テクノロジー株式会社 生体認証装置及び生体認証プログラム
CN106899567B (zh) * 2016-08-24 2019-12-13 阿里巴巴集团控股有限公司 用户核身方法、装置及系统
CN106897748A (zh) * 2017-03-02 2017-06-27 上海极链网络科技有限公司 基于深层卷积神经网络的人脸质量评估方法和系统
KR102299847B1 (ko) * 2017-06-26 2021-09-08 삼성전자주식회사 얼굴 인증 방법 및 장치
CN109360183B (zh) * 2018-08-20 2021-05-11 中国电子进出口有限公司 一种基于卷积神经网络的人脸图像质量评估方法和系统

Also Published As

Publication number Publication date
JP2022544349A (ja) 2022-10-18
CN114127801A (zh) 2022-03-01
EP3973441A1 (en) 2022-03-30
US20220254190A1 (en) 2022-08-11
WO2021029881A1 (en) 2021-02-18

Similar Documents

Publication Publication Date Title
US11275819B2 (en) Generative adversarial network training and feature extraction for biometric authentication
KR20220016217A (ko) 디바이스들의 네트워크에서 사람 인식가능성을 사용하는 시스템 및 방법
US10318794B2 (en) Intelligent auto cropping of digital images
WO2017215240A1 (zh) 基于神经网络的人脸特征提取建模、人脸识别方法及装置
EP2863339A2 (en) Methods and systems for determing user liveness
KR20160124834A (ko) 모바일 디바이스에서의 연속 인증
US9070024B2 (en) Intelligent biometric identification of a participant associated with a media recording
KR102077887B1 (ko) 비디오 회의 강화
EP4156601A1 (en) Automated code analysis and tagging (methods and systems)
US20220100831A1 (en) Face Authentication Embedding Migration and Drift-Compensation
US11115409B2 (en) User authentication by emotional response
US20220272096A1 (en) Media data based user profiles
WO2021051602A1 (zh) 基于唇语密码的人脸识别方法、系统、装置及存储介质
US11694693B2 (en) Methods and systems for processing audio signals containing speech data
JP2018169776A (ja) 認証装置、認証方法、及びプログラム
EP4080388A1 (en) Multimodal, dynamic, privacy preserving age and attribute estimation and learning methods and systems
KR20150073429A (ko) 유해영상 분석 시스템
Trojahn et al. Towards coupling user and device locations using biometrical authentication on smartphones
US20230222193A1 (en) Information processing device, permission determination method, and program
JP7412000B2 (ja) アクセス者色覚認証システム、アクセス者色覚認証システムの色覚認証方法およびプログラム
EP4390862A1 (en) User authentication based on stream and periocular images
WO2023188332A1 (ja) 人物特定装置、人物特定方法、および人物特定プログラム
US11775673B1 (en) Using physiological cues to measure data sensitivity and implement security on a user device
JP2024080541A (ja) 顔認証の方法、プログラム、および、コンピューター・システム
WO2024049662A1 (en) Verification of liveness data for identity proofing