KR20210025020A - 의사 이미지들을 이용한 얼굴 이미지 인식 - Google Patents

의사 이미지들을 이용한 얼굴 이미지 인식 Download PDF

Info

Publication number
KR20210025020A
KR20210025020A KR1020207037767A KR20207037767A KR20210025020A KR 20210025020 A KR20210025020 A KR 20210025020A KR 1020207037767 A KR1020207037767 A KR 1020207037767A KR 20207037767 A KR20207037767 A KR 20207037767A KR 20210025020 A KR20210025020 A KR 20210025020A
Authority
KR
South Korea
Prior art keywords
image
pseudo
images
matrix
transformation matrix
Prior art date
Application number
KR1020207037767A
Other languages
English (en)
Inventor
총롱 론 위
리쉬아브흐 라지
다르 윌버 다흐렌
Original Assignee
스토워스 인스티튜트 포 메디컬 리서치
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 스토워스 인스티튜트 포 메디컬 리서치 filed Critical 스토워스 인스티튜트 포 메디컬 리서치
Publication of KR20210025020A publication Critical patent/KR20210025020A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06K9/00288
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21345Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis enforcing sparsity or involving a domain transformation
    • G06K9/00275
    • G06K9/40
    • G06K9/4661
    • G06K9/6244
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Abstract

본 개시내용은, 이미지 인식을 수행하기 위한, 예를 들어 얼굴 이미지 인식을 수행하기 위한, "의사 이미지들"의 이용에 관한 것이다. 한 실시예에서, 의사 이미지(pseudo-image)는, 현실 세계 이미지로 시작하고, 선택사항적인 전처리(preprocessing) 후에, 이미지를 의사 이미지로 변환하는 비선형 변환을 이미지가 거치게 함으로써 획득된다. 현실 세계 객체들(또는 더 일반적으로는, 현실 세계 패턴들)은 시작 이미지에서 인식가능할 수 있지만 의사 이미지에서는 인식될 수 없다. 이미지 인식은, 의사 이미지를 알려진 의사 이미지 라이브러리와 비교함으로써 일어난다, 즉, 이미지 인식은 현실 세계 공간으로의 복귀없이 의사 이미지 공간에서 일어난다. 이러한 방식으로, 노이즈, 불량한 조명, 불균일한 조명, 및/또는 폐색, 예를 들어, 얼굴 이미지들의 경우 안경, 스카프 등의 존재에 의해 저하된 현실 세계 이미지 등의, 불완전한 현실 세계 이미지들에 대해서도 견고한 이미지 인식이 달성된다.

Description

의사 이미지들을 이용한 얼굴 이미지 인식
관련 출원의 상호참조
본 출원은, 참조에 의해 그 내용이 본 명세서에 포함되는 2018년 7월 2일 출원된 미국 가출원번호 제62/693,136호에 대해 35 USC §119(e) 하의 혜택을 주장한다.
정부 투자
본 발명은 국립 보건원(National Institutes of Health)에 의해 수여된 허가 번호 R01DC 014701하의 정부 지원으로 이루어졌다. 정부는 본 발명에서 소정의 권한을 가진다.
발명의 분야
본 개시내용은 이미지 인식을 수행하기 위한 컴퓨터 시스템 및 컴퓨터-구현된 방법에 관한 것이다. 한 특별히 중요한 실시예에서, 이 시스템 및 방법은 이미지 내에서 얼굴 인식을 통해 인간 대상을 식별하는데 이용된다. 더 일반적으로, 본 개시내용은, 분류, 식별, 또는 기타의 목적을 위해 이용될 수 있는 이미지에 임베딩된 물체, 패턴 또는 피처를 찾기 위해, 픽셀로 구성된 이미지 또는 더 일반적으로는 컴포넌트로 구성된 이미지를 처리하기 위한 컴퓨터-구현된 방법 및 컴퓨터 시스템을 제공한다.
컴퓨터 디바이스에 의한 얼굴 인식은, 국가 안보 및 형사 사법 시스템 등의 역사적으로 중요한 분야뿐만 아니라 최근 몇 년 동안 상업 환경 및 소셜 미디어 상호작용에서도 광범위하게 적용된다. 결과적으로, 얼굴 인식은 이 문제에 전념하는 다양한 과학 저널(예를 들어, International Journal of Computer Vision 및 IEEE Transactions on Image Processing and IEEE Transactions on Pattern Analysis and Machine Intelligence라는 제목의 IEEE 간행물) 및 진행 상황을 보고하기 위해 정기적으로 소집되는 국제 회의(예를 들어, International Association for Pattern Recognition and the IEEE Computer Society Conferences on Computer Vision and Pattern Recognition and the IEEE International Conference on Automatic Face and Gesture Recognition에 대한 연례 회의)에서 집중적인 연구 대상이 되어왔고 지속되고 있다.
얼굴 인식의 성공은 실험실 환경에서 달성되어 왔다. 그러나, 이것은, 감시 카메라, 인터넷 또는 모바일 디바이스 등의 불완전한 소스로부터 이미지가 수집되는 실제 응용에서는 여전히 어려운 과제로 남아 있다. 이러한 현실 세계 조건에서 획득된 얼굴 이미지는, 종종 노이즈, 불량한 조명, 불균일한 조명, 및/또는 폐색으로 인해 저하되어, 이미지에 그 얼굴이 등장하는 사람 또는 사람들을 인식하기 어렵게 한다. 얼굴 표정, 포즈 및 카메라 각도에서의 변화는 종종 추가적인 어려움을 제시한다. 따라서 얼굴 인식의 핵심 과제는 다양한 조건과 저하된 이미지에서 동일한 얼굴의 견고하고 한결같은 인식을 달성하는 것이다. 이러한 이미지는 본 명세서에서 "불완전한 이미지"라고 지칭될 것이다.
전산화된 얼굴 인식은 대개 소정 형태로 얼굴을 표현하는 시스템을 이용하여 수행되며, 그 후 정합 프로세스가 수행된다. 성공적인 인식을 달성하는 일부 시스템은, 학습 기반 접근법 또는 수동으로 선별된 피처를 이용하여 이미지로부터 피처를 추출하는 것을 포함한다. 그 다음, 이미지의 표현은, 종종 얼굴을 분류 및/또는 식별하기 위한 통계적 접근법을 포함하는 정합을 거치게 된다. 수동으로 선별된 피처는 견고성을 제공할 수 있지만 모든 가능한 피처를 열거하는 것은 불가능하다. 딥 러닝 접근법들은, 시스템이 감독형 또는 비감독형 알고리즘으로 피처 추출을 수행하는 것을 허용할 수 있다. 그러나, 이들은 일반적으로 수많은 가능한 조건을 다루는 대규모 훈련 세트를 요구한다. 훈련 세트에 포함되지 않은 조건이 있다면, 시스템이 사실상 수행되지 못할 가능성이 높다.
본 개시내용은 얼굴 이미지 인식에서 상기의 문제점에 관한 것이다. 더 일반적으로, 본 개시내용은, 내부에 임베딩된 물체, 패턴 또는 피처를 찾기 위해 컴포넌트들(예를 들어, 픽셀들)로 구성된 이미지들을 처리하기 위한 견고한 방법들을 제공하는 것에 관한 것이다.
제1 양태에 따르면, 본 개시내용은 다음과 같은 단계들을 포함하는 컴퓨터-구현된 이미지 인식을 수행하는 방법을 제공한다 :
(a) M개의 컴포넌트를 갖는 제1 이미지를 제공하는 단계;
(b) 미리결정된 변환 행렬을 제공하는 단계 ―
(i) 미리결정된 변환 행렬은, K개의 열이 K개 사전 요소의 세트를 구성하는 M x K 행렬이고,
(ii) 미리결정된 변환 행렬은, N개의 열이 N개 훈련 이미지의 세트를 구성하고 각각의 훈련 이미지가 M개의 컴포넌트를 갖는 M x N 행렬의 저밀도, 비음수 분해(sparse, non-negative factorization)를 수행하는 단계를 포함하는 방법에 의해 구성됨―; 및
(c) 제1 이미지의 저밀도, 비음수 변환을 수행하기 위한 미리결정된 변환 행렬을 이용하여 제1 이미지에 대한 의사 이미지를 구성하는 단계, ―제1 이미지에 대한 상기 의사 이미지는 K개의 요소 가중치로 구성되며, 각각의 요소 가중치는 K개 사전 요소 중 하나에 대한 것임―,
여기서 M x N 행렬은 랭크 R을 가지며 K는 다음과 같은 관계 중 하나 또는 둘 다를 충족한다 :
(i) K는 M보다 크거나 같다; 및
(ii) K는 R보다 크거나 같다.
알려진 바와 같이, 행렬의 행 랭크는 선형적으로 독립적인 행렬의 행의 수이고 열 랭크는 선형적으로 독립적인 열의 수이다. 행 랭크는 항상 열 랭크와 같으므로 선형으로 독립된 행 또는 열의 수는 행렬의 "랭크"를 구성한다. 행렬의 랭크가 동일한 차원의 행렬에 대해 가장 큰 가능한 랭크와 같다면, 즉, 행렬의 랭크가 행과 열의 수 중 더 작은 쪽이라면, 그 행렬은 "풀 랭크 행렬"이다.
M x N 행렬은 종종 풀 랭크 행렬일 것이며 또한 대개 N > M을 가질 것이다. 이들 조건 하에서, 제2 관계가 제1 관계와 동일하게 되도록, 즉, K ≥ M이도록, R은 M과 같다. 따라서, 많은 경우에, 상기의 관계는, 정사각형 행렬(K = M) 또는 더 일반적으로는 행보다 열이 더 많은 직사각형 행렬(K > M)인 미리결정된 변환 행렬과 균등하다.
본 개시내용의 제1 양태의 소정의 실시예들에서, 이 방법은 다음과 같은 단계들 (d) 및 (e)를 더 포함한다 :
(d) 알려진 이미지들의 S개 의사 이미지의 세트를 제공하는 단계, ―상기 S개 의사 이미지의 각각은 K개의 요소 가중치로 구성되고, 각각의 요소 가중치는 K개 사전 요소 중 하나에 대한 것임―; 및
(e) 단계 (c)의 의사 이미지를 단계 (d)의 S개 의사 이미지의 세트와 비교하여, 예를 들어 제1 이미지가 다음 중 하나 이상일 가능성을 결정하는 단계 :
(i) 알려진 이미지들의 하나 이상의 클래스 또는 범주에 속함,
(ii) 한 특정한 알려진 이미지,
(iii) 알려진 이미지들의 하나 이상의 클래스 또는 범주에 속하지 않음, 및
(iv) 알려진 이미지가 아님.
본 개시내용의 제1 양태의 다른 실시예들에서, 이 방법은 단계 (e)의 비교 결과들을 보고하거나 그렇지 않으면 이들 결과를 이용하는 추가 단계, 예를 들어 비교 결과들을 이용하여 개시된 방법의 머신 비전 응용에서 로봇의 동작을 제어하는 추가 단계를 를 포함한다.
제2 양태에 따르면, 본 개시내용은 다음과 같은 단계들을 포함하는 컴퓨터-구현된 이미지 인식을 수행하는 방법을 제공한다 :
(a) M개의 컴포넌트를 갖는 제1 이미지를 제공하는 단계;
(b) 미리결정된 변환 행렬을 제공하는 단계 ―
(i) 미리결정된 변환 행렬은, K개의 열이 K개 사전 요소의 세트를 구성하는 M x K 행렬이고,
(ii) 미리결정된 변환 행렬은, N개의 열이 N개 훈련 이미지의 세트를 구성하고 각각의 훈련 이미지가 M개의 컴포넌트를 갖는 M x N 행렬의 저밀도, 비음수 분해를 수행하는 단계를 포함하는 방법에 의해 구성됨―;
(c) 제1 이미지의 저밀도, 비음수 변환을 수행하기 위한 미리결정된 변환 행렬을 이용하여 제1 이미지에 대한 의사 이미지를 구성하는 단계, ―제1 이미지에 대한 상기 의사 이미지는 K개의 요소 가중치로 구성되며, 각각의 요소 가중치는 K개 사전 요소 중 하나에 대한 것임―;
(d) 알려진 이미지들의 S개 의사 이미지의 세트를 제공하는 단계, ―상기 S개 의사 이미지의 각각은 K개의 요소 가중치로 구성되고, 각각의 요소 가중치는 K개 사전 요소 중 하나에 대한 것임―; 및
(e) 단계 (c)의 의사 이미지를 단계 (d)의 S개 의사 이미지의 세트와 비교하여, 예를 들어 제1 이미지가 다음 중 하나 이상일 가능성을 결정하는 단계 :
(i) 알려진 이미지들의 하나 이상의 클래스 또는 범주에 속함,
(ii) 한 특정한 알려진 이미지,
(iii) 알려진 이미지들의 하나 이상의 클래스 또는 범주에 속하지 않음, 및
(iv) 알려진 이미지가 아님.
본 개시내용의 제2 양태의 소정의 실시예들에서, 이 방법은 단계 (e)의 비교 결과들을 보고하거나 그렇지 않으면 이들 결과를 이용하는 추가 단계, 예를 들어 비교 결과들을 이용하여 개시된 방법의 머신 비전 응용에서 로봇의 동작을 제어하는 추가 단계를 포함한다.
제3 양태에 따르면, 본 개시내용은 다음과 같은 단계들을 포함하는 컴퓨터-구현된 이미지 인식을 수행하는 방법을 제공한다 :
(a) 각각이 2개의 가능한 값 중 하나만을 갖는 M개의 컴포넌트를 갖는 제1 이미지를 제공하는 단계;
(b) 미리결정된 변환 행렬을 제공하는 단계 ―
(i) 미리결정된 변환 행렬은, K개의 열이 K개 사전 요소의 세트를 구성하는 M x K 행렬이고,
(ii) 미리결정된 변환 행렬은, N개의 열이 N개 훈련 이미지의 세트를 구성하고 각각의 훈련 이미지가 M개의 컴포넌트를 가지며 그 컴포넌트들 각각이 상기 2개의 가능한 값 중 하나만을 갖는 M x N 행렬의 저밀도, 비음수 분해를 수행하는 단계를 포함하는 방법에 의해 구성됨― ; 및
(c) 제1 이미지의 저밀도, 비음수 변환을 수행하기 위한 미리결정된 변환 행렬을 이용하여 제1 이미지에 대한 의사 이미지를 구성하는 단계, ―제1 이미지에 대한 상기 의사 이미지는 K개의 요소 가중치로 구성되며, 각각의 요소 가중치는 K개 사전 요소 중 하나에 대한 것임―.
본 개시내용의 제3 양태의 소정의 실시예들에서, 이 방법은 다음과 같은 단계들 (d) 및 (e)를 더 포함한다 :
(d) 그 컴포넌트들이 상기 2개의 가능한 값 중 하나만을 갖는 알려진 이미지들의 S개 의사 이미지의 세트를 제공하는 단계, ―상기 S개 의사 이미지 각각은 K개의 요소 가중치로 구성되고, 각각의 요소 가중치는 K개 사전 요소 중 하나에 대한 것임―; 및
(e) 단계 (c)의 의사 이미지를 단계 (d)의 S개 의사 이미지의 세트와 비교하여, 예를 들어 제1 이미지가 다음 중 하나 이상일 가능성을 결정하는 단계 :
(i) 알려진 이미지들의 하나 이상의 클래스 또는 범주에 속함,
(ii) 한 특정한 알려진 이미지,
(iii) 알려진 이미지들의 하나 이상의 클래스 또는 범주에 속하지 않음, 및
(iv) 알려진 이미지가 아님.
본 개시내용의 제3 양태의 다른 실시예들에서, 이 방법은 단계 (e)의 비교 결과들을 보고하거나 그렇지 않으면 이들 결과를 이용하는 추가 단계, 예를 들어 비교 결과들을 이용하여 개시된 방법의 머신 비전 응용에서 로봇의 동작을 제어하는 추가 단계를 포함한다.
본 개시내용의 제1, 제2 및 제3 양태의 단계 (a)와 관련하여, 제1 이미지는, 예를 들어, 디지털 촬영 디바이스, 예를 들어 독립형 디지털 카메라 또는 또 다른 디바이스, 예를 들어, 휴대폰에 임베딩된 구현된 디지털 카메라로부터 획득된 이미지일 수 있다. 이러한 이미지는 아래에 정의된 "원본 이미지"의 예이다. 소정의 실시예들에서, 제1 이미지는 하나 이상의 레벨의 전처리를 거친 원본 이미지일 수 있다. 프리젠테이션을 용이화하기 위해, 단계 (a)의 제1 이미지는, 단계 (a)의 제1 이미지를 전체 프로세스의 다른 부분에서 이용되는 다른 제1 이미지, 예를 들어, 훈련 이미지로서 이용되는 제1 이미지 및 의사 이미지 라이브러리의 준비에 이용되는 제1 이미지와 구별하기 위해 이하에서는 "관심대상의 제1 이미지" 또는 "단계(a)-제1 이미지"라고 지칭된다.
본 개시내용의 제1, 제2 및 제3 양태의 단계 (b)와 관련하여, 이 단계에서 이용되는 미리결정된 변환 행렬은 개시된 이미지 인식 프로세스의 "엔진"으로서 간주될 수 있다. 한 실시예에서, 미리결정된 변환 행렬을 획득하는데 이용되는 저밀도, 비음수 분해는 적어도 하나의 Frobenius 노옴(Frobenius norm)을 이용한다. (본 명세서에서 사용될 때, 행렬의 Frobenius 노옴은 행렬 컴포넌트들의 제곱합의 제곱근이다.) 중요하게는, 미리결정된 변환 행렬(본 명세서에서 "훈련 이미지 세트" 또는 단순히 "훈련 세트"라고 지칭됨)을 획득하는데 이용되는 훈련 이미지들의 행렬은 관심대상의 제1 이미지를 포함할 필요가 없고 전형적으로는 포함하지 않을 것이다. 즉, 개시된 방법은 이 방법의 훈련 세트의 일부가 아닌 이미지에 관해 이미지 인식을 수행할 수 있다. 이것은, 다른 것들 중에서도 특히, 예를 들어, 노이즈, 손상, 또는 폐색 중 하나 이상을 겪고 있는 이미지를 포함한, 훈련 세트에 포함되지 않은 불완전한 이미지에 관해 이미지 인식이 수행되는 것을 허용하기 때문에 프로세스의 중요한 이점이다. 한 실시예에서, 일단 구성되고 나면, 미리결정된 변환 행렬은, 나중에 이용하기 위해 비일시적인 컴퓨터 판독가능한 매체에 저장된다.
프리젠테이션을 용이화하기 위해, 단계 (c)의 의사 이미지는, 단계 (c)의 의사 이미지를 전체 프로세스의 다른 부분에서 이용되는 다른 의사 이미지, 예를 들어, 미리결정된 변환 행렬의 생성 동안에 생성되는 의사 이미지 또는 의사 이미지 라이브러리의 준비에 이용되는 의사 이미지와 구별하기 위해 이하에서는 "관심대상의 의사 이미지" 또는 "단계(c)-의사 이미지"라고 지칭된다. 한 실시예에서, 일단 구성되고 나면, 단계(c)-의사 이미지는 추후의 분석 및/또는 이용을 위해 비일시적인 컴퓨터 판독가능한 매체에 저장된다. 한 실시예에서, (미리결정된 변환 행렬의 생성 동안 생성된 의사 이미지 이외의) 의사 이미지를 구성하는데 이용되는 저밀도, 비음수 변환은 적어도 하나의 L2 노옴을 이용한다. (본 명세서에서 사용될 때, 벡터의 L2 노옴은 벡터 컴포넌트들의 제곱합의 제곱근이다.)
본 개시내용의 제1 및 제3 양태의 선택사항적 단계 (d) 및 (e)와 본 개시내용의 제2 양태의 필수 단계 (d) 및 (e)와 관련하여, 한 실시예에서, 이들 단계에서 이용되는 알려진 이미지들의 의사 이미지 세트("의사 이미지 라이브러리" 또는 간단히 "라이브러리")는 단계 (c)에서 이용된 것과 동일한 미리결정된 변환 행렬을 이용하여 획득된다. 중요한 것은, 단계 (e)에서, 비교는, 제1 이미지들 사이가 아니라, 의사 이미지들 사이에서이다. 이미지 인식을 수행하기 위한 이전 기술에 비해 개선된 견고성을 갖는 개시된 프로세스를 제공하는데 있어서 핵심 요소는, 제1 이미지들의 비교와 반대되는 바로 이 의사 이미지들의 비교이다.
단계 (e)의 비교의 완료시에, 비교의 결과는 사용자에게 직접 보고되거나, 후속된 이용, 보고 또는 분석을 위해 저장될 수 있다. 단계 (e)의 비교가 분류에 이용될 때, 보고는 관심대상의 제1 이미지(따라서 원본 이미지, 아래 참조)에 대한 단일 범주 및/또는 단일 클래스를 식별하는 것처럼 간단할 수 있다. 예를 들어, 얼굴 인식의 경우, 분류는, 관심대상의 제1 이미지를 남성 얼굴 또는 여성 얼굴로 분류하는 것만큼 기본적인 분류가 될 수 있다. 보고는 전형적으로 더 상세하다, 예를 들어, 이것은 전형적으로 여러 범주 및/또는 여러 관심대상 클래스에 관한 정보를 제공할 것이다. 선택사항으로서, 보고는 비교가 수행된 범주들 또는 클래스들 중 하나, 둘 이상 또는 모든 범주에 대한 분류의 신뢰 수준의 표시를 포함할 수 있다.
단계 (e)의 비교가 식별에 이용될 때, 보고는 사용자에게 "정합"이 발견되었음을 통보하는 것만큼 간단할 수 있다. 전형적으로, 통보는 적어도 알려진 이미지의 이름을 동반할 것이다. 대개, 보고는, 이름 외에도, 알려진 이미지에 관한 기타의 관련 데이터뿐만 아니라 알려진 이미지의 사본을 포함한다. 선택사항으로서, 보고는 식별의 신뢰 수준의 표시를 포함할 수 있다, 예를 들어, 보고는 유사성 또는 비교 점수를 포함할 수 있다. 한 실시예에서, 신뢰도의 표시는 가장 높은 신뢰 수준을 갖는 알려진 이미지보다 낮은 신뢰 수준(관심대상의 제1 이미지에 대응하는 더 낮은 가능성)을 갖는 하나 이상의 알려진 이미지의 사본을 포함할 수 있다.
위에서 언급한 바와 같이, 본 명세서에서 개시된 이미지 인식 방법의 중요한 피처는, 일단 의사 이미지 공간에 있게 되면, 이 방법은 의사 이미지 공간에 남아 있고, 예를 들어 단계 (e)의 비교를 수행하기 위해 제1 이미지 공간으로 돌아가지 않는다는 것이다. 이러한 방식으로, 이 방법의 견고성, 예를 들어, 불완전한 이미지를 처리하는 그 능력이 크게 향상된다. 견고성은 또한, K 값에 의존하는 것으로 밝혀졌으며, K 값이 클수록 견고성이 높아지지만 계산 시간이 더 길어지거나 및/또는 저장 요건이 더 커진다.
특히, 아래에서 더 상세히 논의되는 바와 같이, K 대 M 및 R의 비율에 따라 견고성이 증가하는 것으로 밝혀졌다.(위에서 언급한 바와 같이, 많은 경우에, R은 M과 동일할 것이다.) 정량적으로, 소정의 실시예에서, K/M 및 K/R 비율 중 하나 또는 둘 다는 1.0보다 이상이거나, 2.0 이상이거나, 3.0 이상이거나, 4.0 이상이거나, 5.0 이상이다.
위에서 언급된 바와 같이, M x N 행렬은 종종 풀 랭크 행렬일 것이며, 또한 대개는 N > M을 가질 것이다. 이들 조건 하에서, R은 M과 같아서 견고한 이미지 인식을 위한 K ≥ R 기준이 K ≥ M이 되도록 한다, 즉, N > M인 풀 랭크 M x N 행렬에 대해, K 공간에서의 의사 이미지의 차원은 M 공간에서의 제1 이미지의 차원보다 크거나 같을 필요가 있다. 이들 상황에서, 미리결정된 변환 행렬을 이용한 제1 이미지로부터 의사 이미지로의 변환은, M개의 컴포넌트로부터 K개의 컴포넌트로의 제1 이미지의 "확장" 또는 "압축해제"로서 간주될 수 있다. 즉, 미리결정된 변환 행렬은 주어진 수의 컴포넌트(M개의 컴포넌트)를 갖는 이미지를 취하여 더 많은 컴포넌트(K개의 요소 가중치)를 갖는 이미지로 변환(확장 또는 압축해제)한다. 연역적인 사람은 이것이 이미지 인식을 수행하는데 도움이 될 것이라고 생각하지 않을 것이다. 본 개시내용에 따르면, 그 반대가 발견되었다 -- 변환은 이미지 인식을 수행하는데 극히 효과적이며 확장이 충분히 크다면, 불완전한 이미지에 관한 이미지 인식을 수행하는데 있어서 높은 수준의 견고성을 야기한다.
겉으로 보기에, 본 명세서에서 개시된 이미지 인식 기술의 M → K 압축해제 전략은, 이미지 처리가 확장이 아닌 데이터 압축을 달성해야 한다는 기존의 통념에 위배된다. 그러나, 의사 이미지의 생성 동안에 적용되는 저밀도 조건 때문에, 대부분의 경우 압축해제는, 의사 이미지를 구성하는 K개의 요소 가중치 중 비교적 적은 수가 의사 이미지를 나타내기 위해 저장될 필요가 있는 값들을 가질 것이므로 제1 이미지보다 의사 이미지에 대해 더 많은 스토리지가 필요함을 의미하지는 않는다. 즉, 많은 경우 및 대부분의 경우, 대부분의 요소 가중치는 0이거나 본질적으로 0이므로, 저장될 필요가 있는 것은, 0이 아니거나 본질적으로 0이 아닌 요소 가중치의 의사 이미지에서의 값과 위치가 전부이다. 따라서, 대부분의 경우, 본 명세서에서 개시된 이미지 인식 기술은 효과적인 이미지 인식과 감소된 스토리지 요건 둘 다를 달성한다. (이것은 전형적으로 스토리지 요건에 영향을 미치지는 않지만, 제1 이미지로부터 의사 이미지로의 변환은 비음수 변환이므로, 저장되는 모든 요소 가중치는 양수라는 점에 유의할 수 있다.) 정량적으로, K'로서 저장될 필요가 있는 요소 가중치의 수를 지정하면, K' 대 M의 비율은 일반적으로 1.0 미만, 0.75 이하, 0.50 이하, 0.25 이하, 0.10 이하, 0.05 이하, 또는 1/M과 같을 것이다.
그레이스케일 제1 이미지의 경우, K ≥ M 및/또는 K ≥ R이 견고한 이미지 인식을 위한 기본 요건인 것으로 밝혀졌다. 이미지의 컴포넌트가, 많은 값, 예를 들어 8 비트 그레이스케일에서와 같은 256개의 값이 아니라, 2개의 값 중 하나만을, 예를 들어, 온 또는 오프만을 가질 수 있는 제1 이미지의 경우, K ≥ M 및 K ≥ R 관계 중 어느 것도 충족되지 않더라도 비교 단계 (e)에서의 의사 이미지의 이용을 통해 허용가능한 수준의 견고성이 달성될 수 있다. 예 10, 및 특히, 도 33 및 도 34는 그레이스케일 이미지와 비교한 2-값 이미지들(2진 이미지들) 사이의 이러한 차이를 나타낸다. 구체적으로, 이 예에서, K가 M보다 클 때(도 33)와 M보다 작을 때(도 34) 양쪽 모두에서 심볼(구체적으로 글자 및 문자)의 불완전한 이미지의 허용가능한 견고한 이미지 인식이 달성되었다. 이 예에서 볼 수 있는 바와 같이, K가 M보다 크면 프로세스가 상당히 더 견고해지지만, K가 M보다 작고 제1 이미지가 2진 이미지일 때는 실제 응용에 대해 견고성이 충분하다. K를 R과 비교할 때 동일한 결과를 볼 수 있다.
본 개시내용의 제4 양태에 따르면, K의 값 및/또는 M과 R 중 하나 또는 둘 다에 대한 그 비율의 값은, 처리되는 특정한 이미지 인식 문제에 대해 적절한 수준의 견고성이 식별될 때까지 변한다. 아래의 예 1 내지 8은, K/M 비율 0.8이 얼굴 수정을 거치지 않은 얼굴에 관한 얼굴 인식 수행에 대해서는 충분하지만 수정을 거친 얼굴에 대해서는 불충분한 것으로 드러난 본 개시내용의 이러한 양태를 나타낸다. 반면에 K/M 비율 2.4는 수정되지 않은 얼굴과 수정된 얼굴 둘 다에 대해 올바른 식별을 제공하는데 있어서 성공적이었고, K/M 비율 4.0은 훨씬 더 양호했다.
제5 양태에 따르면, 본 개시내용은, 본 명세서에서 개시된 이미지 인식 방법을 수행하기 위한 비일시적인 컴퓨터 판독가능한 매체 및 컴퓨터 시스템을 제공한다. 상거래 물품으로서 판매 및/또는 배포될 수 있는 비일시적인 컴퓨터 판독가능한 매체는, 컴퓨터 시스템에서 실행되어 개시된 이미지 인식 기술의 일부 또는 전부를 수행할 수 있는 컴퓨터 명령어(컴퓨터 코드)를 포함할 수 있다.
제6 양태에 따르면, 본 개시내용은 단계 (d) 및 (e)에서 의사 이미지 라이브러리로서 이용하기 위한 의사 이미지의 하나 이상의 데이터세트를 제공한다. 데이터세트 또는 세트들은 상거래 물품으로서 판매 및/또는 배포되는 비일시적인 컴퓨터 판독가능한 매체에 포함될 수 있다. 마찬가지로, 단계 (b)에서 이용하기 위한 하나 이상의 미리결정된 변환 행렬 및/또는 미리결정된 변환 행렬을 획득하기 위한 하나 이상의 훈련 세트는, 상거래 물품으로서 판매 및/또는 배포되는 비일시적인 컴퓨터 판독가능한 매체에 포함될 수 있다. 배포는, 예를 들어, 인터넷을 통해 이루어질 수 있으며, 이것은, 다른 것들 중에서도 특히, 의사 이미지 라이브러리의 업데이트를 용이화하여, 예를 들어, 새로운 의사 이미지를 추가하거나 수행중인 이미지 인식과 더 이상 관련이 없는 의사 이미지를 제거할 수 있다. 비일시적인 컴퓨터 판독가능한 매체는 "클라우드" 또는 사용자 위치에 있을 수 있다.
본 개시내용의 추가적인 양태들은 "본 개시내용의 피처"라는 제목으로 아래에서 개시된다.
본 명세서에 개시된 이미지 인식 기술의 바람직한 응용은 얼굴 인식이다. 다른 응용으로서는, 물체 인식 및 심볼 인식(머신 판독)이 포함된다. 더 일반적으로, 개시된 이미지 인식 기술은 모든 형태의 머신 비전에서 이용될 수 있다. 본 명세서에 개시된 기술을 이용하여 분석될 수 있는 다양한 이미지의 비제한적인 예뿐만 아니라, 이 기술에 대한 응용의 비제한적인 예는, "산업상 이용가능성"이라는 제목으로 아래에서 논의된다.
본 명세서에 개시된 기술의 추가적인 특성 및 이점은 뒤따르는 상세한 설명에 개시되고, 부분적으로는, 그 설명으로부터 본 기술분야의 통상의 기술자에게 용이화하게 명백해지거나 본 명세서에 설명된 기술을 실시함으로써 인식될 것이다. 첨부된 도면은 본 기술의 추가적인 이해를 제공하기 위해 포함된 것으로서, 본 명세서에 포함되어 명세서의 일부를 구성한다. 본 명세서 및 도면에 개시된 기술의 다양한 양태는 개별적으로 및 임의의 조합으로 및 모든 조합으로 이용될 수 있다는 것을 이해해야 한다. 또한, 상기 설명된 전반적인 설명과 이하의 상세한 설명은 단지 본 발명의 예시일 뿐이며, 청구항들에 의해 정의된 본 발명의 성질 및 특성을 이해하기 위한 개요 또는 프레임워크를 제공하기 위한 것임을 이해해야 한다.
도 1은 관심대상 사람의 원본 이미지를 도시한다.
도 2a는 제1 레벨 전처리의 제1 라운드, 구체적으로 자르기 이후의 도 1의 관심대상 원본 이미지를 도시한다.
도 2b는 제1 레벨 전처리의 제2 라운드, 구체적으로 다운샘플링 이후의 관심대상 원본 이미지를 도시한다. 이 도의 이미지는 관심대상의 제1 이미지로서 이용되었다; 이것은 25x25 어레이에서 625 픽셀(M = 625)을 포함했다.
도 3은 2,000개의 제1 이미지(N = 2,000)로 구성된 훈련 세트 중의 5개의 제1 이미지를 도시한다. 제1 이미지는 도 2b의 관심대상의 제1 이미지를 획득하는데 이용된 것과 동일한 제1 레벨 전처리를 이용하여 획득되었다.
도 4는 도 3의 일부가 취해졌던 전체 훈련 세트를 이용하여 획득된 미리결정된 변환 행렬의 사전 요소들의 일부를 도시한다. 이 경우, 각각의 의사 이미지는 1,500개의 사전 요소에 대해 1,500개의 요소 가중치(K = 1,500)를 가지며, 하나의 가중치는 각각의 사전 요소에 대한 것이다. 1,500개의 사전 요소 중 36개가 도시되어 있다. 각각의 사전 요소는 이 도면에서 25x25 2차원 어레이로서 도시된 625개의 컴포넌트를 갖는다.
도 5는 훈련 세트의 의사 이미지 라이브러리(S = 2,000)의 일부를 도시한다. 도 3에 도시된 각각의 제1 이미지에 대응하는 5개의 의사 이미지가 디스플레이되어 있다.
도 6은 도 2b의 관심대상의 제1 이미지에 대한 관심대상의 의사 이미지를 도시한다. 이것은 또한, 의사 이미지에 대한 사전 요소들을 도시하고 가장 큰 요소 가중치들을 갖는 사전 요소들을 강조표시한다. 관심대상의 의사 이미지는, 그 사전 요소들 중 일부가 도 4에 도시되어 있는 미리결정된 변환 행렬을 이용하여 획득되었다. 모든 1500개의 사전 요소 및 그 요소 가중치들이 디스플레이된다.
도 7은 도 6의 관심대상의 의사 이미지에 대한 중요한 요소 가중치들(계수 값들)을 도시한다. 각각의 요소의 계수 값은 그 요소에 대응하는 라인의 높이에 의해 표시된다.
도 8은 훈련 세트의 제1 이미지 2,000개로부터 획득된 의사 이미지 라이브러리를 이용한 도 6의 관심대상의 의사 이미지의 유사성 점수를 도시한다. 유사성은 코사인 거리에 의해 측정되었다. 이 도면은, 의사 이미지 라이브러리와 관심대상의 의사 이미지의 비교에 의해 관심대상의 제1 이미지 및 그에 따른 관심대상의 원본 이미지의 식별을 보고하는 한 예이다. 가장 높은 유사성 점수를 갖는 훈련 세트 내의 얼굴의 제1 이미지가 디스플레이된다. 이것은 관심대상의 제1 이미지와 동일하다.
도 9는 도 3의 일부가 취해졌던 전체 훈련 세트를 이용하여 획득된 미리결정된 변환 행렬의 사전 요소들의 일부를 도시한다. 이 경우, 각각의 의사 이미지는 500개의 사전 요소에 대해 500개의 요소 가중치(K = 500)를 갖는다. 500개의 사전 요소 중 36개가 도시되어 있다.
도 10은 500차원의 의사 이미지들로 변환될 때 훈련 세트의 의사 이미지 라이브러리의 일부를 도시한다. 도 3에 도시된 각각의 제1 이미지에 대응하는 5개의 의사 이미지가 디스플레이되어 있다.
도 11은 K가 500과 같은 경우 도 2b의 관심대상의 제1 이미지에 대한 관심대상의 의사 이미지를 도시한다. 관심대상의 의사 이미지는, 그 사전 요소들 중 일부가 도 9에 도시되어 있는 미리결정된 변환 행렬을 이용하여 획득되었다. 의사 이미지의 각각의 요소 가중치(각각의 컴포넌트)는 미리결정된 변환 행렬의 사전 요소에 대한 것이다, 즉, 의사 이미지의 각각의 요소 가중치는 미리결정된 변환 행렬의 열에 대한 것이다. 최상위 (가장 큰) 12개의 요소 가중치를 갖는 사전 요소들은 이 도면의 하단 패널에 강조표시되어 있다. 의사 이미지에서의 각각의 요소 가중치의 그레이스케일은 요소 가중치의 크기를 나타낸다. 모든 500개의 요소 가중치 및 사전 요소가 디스플레이된다.
도 12는 도 11의 의사 이미지의 12개 중요한 사전 요소를 도시한다. 중요한 사전 요소들 각각의 요소 가중치(계수 값)는 그 요소에 대응하는 라인의 높이에 의해 표시된다. 12개 사전 요소의 더 큰 그림이 하단 패널에 디스플레이되어 있다.
도 13은 도 10의 일부가 취해졌던 전체 의사 이미지 라이브러리와 도 11의 관심대상의 의사 이미지의 비교에 의해 관심대상의 제1 이미지 및 그에 따른 원본 이미지의 식별의 보고를 도시한다. 가장 높은 유사성 값을 갖는 의사 이미지 라이브러리 내의 얼굴의 제1 이미지가 디스플레이된다.
도 14는 의사 이미지 라이브러리에서의 얼굴의 식별을 도시하지만, 안경이 원본 얼굴을 변경시키고 약간 가리고 있다. 안경을 착용한 얼굴은 의사 이미지 라이브러리에 없었지만, 프로세스는 그것을 안경을 착용하지 않은 사람으로서 정확히 식별했다. 이 도면에서 K는 1,500이었다.
도 15는 의사 이미지 라이브러리에서의 얼굴의 식별을 도시하지만, 선글라스가 대상의 눈을 완전히 가리고 있다. 선글라스를 착용한 얼굴은 의사 이미지 라이브러리에 없었지만, 프로세스는 그것을 선글라스를 착용하지 않은 사람으로서 정확히 식별했다. 이 도면에서 K는 1,500이었다.
도 16은 의사 이미지 라이브러리에 있는 것들과는 상이한 표정들을 가진 얼굴들의 식별을 도시한다. 상단 패널은 웃는 얼굴이 훈련 세트에 있었던 사람을 도시한다. 그녀의 웃지 않는 얼굴("새로운" 얼굴)은 훈련 세트에 있지 않았고 따라서 훈련 세트로부터 준비된 의사 이미지 라이브러리에 있지 않았더라도 적절하게 식별되었다. 하단 패널은 그 웃지 않는 얼굴이 훈련 세트에 없고 그에 따라 훈련 세트로부터 준비된 의사 이미지 라이브러리에 없는 사람을 도시한다. 그녀의 웃는 얼굴은 정확하게 식별되었다. 이 도면에서 K는 1,500이었다.
도 17은 상이한 얼굴 수정들이 수반된 얼굴의 정확한 식별을 도시한다. 선글라스를 착용한 얼굴(좌측 상단), 콧수염으로 가장한 얼굴(우측 상단), 선글라스와 콧수염 둘 다가 있는 얼굴(좌측 하단) 각각은, 위장되지 않은 얼굴을 포함한 의사 이미지 라이브러리와 비교했을 때 위장되지 않은 얼굴에 대해 가장 높은 유사성 점수를 부여한 의사 이미지를 생성했다. 이 도면에서 K는 1,500이었다.
도 18은 얼굴의 상이한 부분들이 폐색되었을 때의 여성 얼굴의 식별을 나타낸다. 가장 높은 유사성 점수를 갖는 얼굴들은 식별될 원본 얼굴을 포함했다. 임의의 특정한 동작 이론에 예속되기를 원하지 않지만, 여성 얼굴은 남성 얼굴보다 식별하기가 더 어려울 수 있고 결과적으로 가장 높은 유사성 점수를 갖는 의사 이미지 라이브러리의 얼굴은 4개의 사례 중 2개의 사례에서 정확한 얼굴이 아니었다. 이 도면에서 K는 1,500이었다. 도 27에 도시된 바와 같이, K가 2,500으로 증가되었을 때, 4가지 사례에서 모두 정확한 얼굴이 식별되었다.
도 19는 얼굴의 상이한 부분들이 폐색되었을 때 남성 얼굴의 식별을 나타낸다. 가장 높은 유사성 점수를 갖는 얼굴은 모든 사례에서 식별될 원본 얼굴이었다. 이 도면에서 K는 1,500이었다.
도 20은 의사 이미지 라이브러리에서의 얼굴의 식별을 도시하지만, 도 14에서와 같이 얼굴에 안경이 추가되어 있다. 이 도면의 경우 K는, 도 14에서와 같은 1,500이 아니라 500이었다. 도 14와는 대조적으로, 잘못된 얼굴이 식별되었다.
도 21은 의사 이미지 라이브러리에서의 얼굴의 식별을 도시하지만, 도 15에서와 같이 선글라스가 여성 얼굴의 눈을 가리고 있다. 이 도면의 경우 K는, 도 15에서와 같은 1,500이 아니라 500이었다. 도 15와는 대조적으로, 잘못된 얼굴이 식별되었다.
도 22는 의사 이미지 라이브러리에서의 2개의 얼굴의 식별을 도시하지만 도 16에서와 같이 상이한 얼굴 표정을 갖고 있다. 이 도면의 경우 K는, 도 16에서와 같은 1,500이 아니라 500이었다. 도 16과는 대조적으로, 잘못된 얼굴이 식별되었다.
도 23은 의사 이미지 라이브러리에서의 얼굴의 식별을 도시하지만, 도 17에서와 같이, 선글라스, 콧수염, 또는 둘 다를 포함한 얼굴 액세서리가 추가되어 있다. 이 도면의 경우 K는, 도 17에서와 같은 1,500이 아니라 500이었다. 도 17과는 대조적으로, 잘못된 얼굴이 식별되었다.
도 24는 의사 이미지 라이브러리에서의 여성 얼굴의 식별을 도시하지만, 도 18에서와 같이, 그녀의 얼굴의 상이한 부분들이 폐색되어 있다. 이 도면의 경우 K는, 도 18에서와 같은 1,500이 아니라 500이었다. 도 18과는 대조적으로, 모든 사례에서 잘못된 얼굴이 식별되었다.
도 25는 의사 이미지 라이브러리에서의 남성 얼굴의 식별을 도시하지만, 도 19에서와 같이, 그의 얼굴의 상이한 부분들이 가려져 있다. 이 도면의 경우 K는, 도 19에서와 같은 1,500이 아니라 500이었다. 도 19와는 대조적으로, 잘못된 얼굴이 식별되었다.
도 26은 의사 이미지 라이브러리에서의 얼굴의 식별을 도시하지만, 도 17 및 도 23에서와 같이, 선글라스, 콧수염, 또는 둘 다를 포함한 얼굴 액세서리가 추가되어 있다. 이 도면의 경우 K는 2,500이었고 라이브러리 내의 다른 얼굴들에 비해 모든 사례에서 상당히 높은 유사성 점수로 정확한 얼굴이 식별되었다.
도 27은 의사 이미지 라이브러리에서의 여성 얼굴의 식별을 도시하지만, 도 18 및 도 24에서와 같이, 그녀의 얼굴의 상이한 부분들이 가려져 있다. 이 도면의 경우 K는 2,500이었고 라이브러리 내의 다른 얼굴들에 비해 모든 사례에서 상당히 높은 유사성 점수로 정확한 얼굴이 식별되었다.
도 28은 예 1의 의사 이미지 라이브러리를 생성하는데 이용된 훈련 세트 내에 없는 얼굴 세트를 도시한다. 얼굴들은 Yale 얼굴 이미지 데이터베이스로부터 나온 것이었다. 이 도면에는, 각각의 얼굴에 대한 11개의 상이한 얼굴 표정과 조명 조건이 있는 15명의 상이한 개인들의 얼굴이 도시되어 있다.
도 29는 예 1의 미리결정된 변환 행렬을 이용한 도 28에 도시된 얼굴들의 식별을 나타낸다. 그래프는 도 28의 Yale 데이터베이스로부터의 얼굴들에 대한 의사 이미지 쌍들 사이의 쌍별 유사성 점수들을 도시한다. 어두운 그레이스케일은 높은 유사성 점수를 나타낸다. 동일한 사람에 속하는 얼굴들은 그룹화되고 축들을 따라 숫자로 표시된다. 그래프는, 상이한 얼굴 표정들 및 조명 조건들에도 불구하고, 동일한 사람에 속하는 얼굴들은 그 의사 이미지들에서 매우 유사하지만, 상이한 사람들에 속하는 얼굴들은 그렇지 않다는 것을 도시한다.
도 30은 도 28의 Yale 데이터베이스로부터의 얼굴들에 대한 의사 이미지들과 예 1의 훈련 세트의 얼굴들에 대한 의사 이미지들 사이의 쌍별 유사성 점수들을 나타낸다. 동일한 사람에 속하는 Yale 얼굴들의 의사 이미지들의 유사성과는 대조적으로, Yale 얼굴들은 훈련 세트 내의 얼굴들과는 거의 유사성을 보이지 않는다.
도 31은 본 명세서에서 개시된 기술에 따른 이미지 인식을 위한 훈련 세트로서 이용된 1,000개의 심볼(글자 및 문자)을 도시한다. 각각의 심볼은 16 x 16 제1 이미지로서 디지털화되었다.
도 32는 도 31의 훈련 세트의 심볼들에 대한 의사 이미지들의 생성과 대문자 "H" 및 한자 "빙"에 대한 의사 이미지들의, 의사 이미지 라이브러리로서 이용된 의사 이미지들과의 유사성 점수를 나타낸다. 이 도면에서 K는 800이었다.
도 33은 글자와 문자가 누락된 픽셀들(원본 심볼 옆에 표시됨)로 인해 손상되었을 때 대문자 "H"와 한자 "빙"의 식별을 나타낸다. 이 도면에서 K는 800이었다. 손상된 글자/문자에 대한 의사 이미지들과 의사 이미지 라이브러리 내의 각각의 의사 이미지 사이의 유사성 점수들이 도시되어 있다. 정확한 글자/문자가 식별되었다.
도 34는 글자와 문자가 누락된 픽셀들(원래 심볼 옆에 표시됨)로 인해 손상되었을 때 대문자 "H"와 한자 "빙"의 식별을 나타낸다. 손상은 도 33에서와 동일했다. 이 도면의 경우 K는 100이었다. 정확한 심볼이 식별되었지만 많은 의사 이미지가 이제는 높은 유사성 점수 값을 가진다.
도 35는 원본 이미지로부터 무작위로 선택된 다양한 수의 픽셀로 구성된 이미지들에 대해 K=800(상단 패널) 대 K=200(하단 패널)을 이용하여 코사인 오차율(1-코사인 거리)을 도시한다. K 값이 클수록 픽셀 수가 증가함에 따라 오류율 하락이 더 빨라진다.
도 36은 증강된 미리결정된 변환 행렬을 생성하기 위한 de novo 및 순차 접근법들을 비교하는데 이용된 제1 이미지(N = 1,000)를 도시한다. 이들 제1 이미지 각각은 2진 픽셀들의 16x16 어레이다(M = 256). 이 도면의 제1 이미지들은 도 31의 이미지들과 동일하지만 포멧이 상이하다.
도 37은 증강된 미리결정된 변환 행렬을 생성하기 위해 de novo 접근법을 이용하여 생성된 사전 요소들(K = 1,000)을 도시한다. 사전 요소들 각각은 2진 픽셀들의 16x16 어레이다(M = 256).
도 38은 증강된 미리결정된 변환 행렬을 생성하기 위해 순차 접근법을 이용하여 생성된 사전 요소들(K = 1,000)을 도시한다. 사전 요소들 각각은 2진 픽셀들의 16x16 어레이다(M = 256).
도 39는 de novo 학습에 의해 생성된 도 37의 사전 요소들과 순차 학습에 의해 생성된 도 38의 사전 요소들 사이의 코사인 유사성을 도시한다.
도 40은 순차 학습에 의해 생성된 도 38의 사전 요소들의 컴포넌트들 사이의 쌍별 상관 관계를 도시한다.
도 41은 의사 이미지들이 순차 학습에 의해 생성되었던 도 36의 제1 이미지들에 대한 의사 이미지들의 컴포넌트들 사이의 쌍별 상관 관계를 도시한다.
도 42는 미리결정된 변환 행렬 및 훈련 세트에 대한 의사 이미지 세트를 생성하는 본 개시내용의 예시적인 실시예를 나타내는 플로차트이다.
도 43은 관심대상의 제1 이미지로부터 관심대상의 의사 이미지를 생성하고 관심대상의 의사 이미지를 의사 이미지 라이브러리와 비교하는 본 개시내용의 예시적인 실시예를 나타내는 플로차트이다.
도 44는 알려진 이미지로부터 의사 이미지를 생성하고 그 의사 이미지를 하나 이상의 의사 이미지 라이브러리에 통합하는 본 개시내용의 예시적인 실시예를 나타내는 플로차트이다.
도 45는 미리결정된 변환 행렬이 증강이 필요한지를 결정하기 위한 본 개시내용의 예시적인 실시예를 나타내는 플로차트이다.
도 46은 미리결정된 변환 행렬을 순차 접근법에 의해 증강하기 위한 본 개시내용의 예시적인 실시예를 나타내는 플로차트이다. Φ i A i 의 업데이트는 예를 들어 아래의 알고리즘 3을 이용하여 수행될 수 있다.
도 47은 본 개시내용의 방법들의 실시예들을 실행하는데 이용하기 위한 컴퓨터 시스템의 대표 예의 컴포넌트들을 나타내는 기능 블록도이다.
용어 및 표기법
이하의 용어들 및 그들의 연관된 단수 및 복수와 이하의 표기법이 본 명세서 및 청구항에서 사용된다.
(A) 원본 이미지 및 제1 레벨, 제2 레벨, 및 기타의 전처리
"원본 이미지"는 컴포넌트들(예를 들어, 픽셀들)의 정렬된 시퀀스이며, 각각의 컴포넌트는 시퀀스 내에서 값과 위치를 가지고 있다. 전형적으로, 인간은 원본 이미지(예를 들어, 얼굴 인식의 경우 인간의 얼굴)에서 현실 세계의 하나 이상의 물체를 인식할 수 있지만, 모든 경우에 반드시 그런 것은 아니다, 예를 들어 원본 이미지는 UPC 또는 행렬 바코드 등의 컴퓨터 생성된 이미지일 수 있다. 원본 이미지는, 디지털 촬영 디바이스, 예를 들어 독립형 디지털 카메라 또는 다른 디바이스, 예를 들어 휴대폰에 임베딩된 디지털 카메라에 의해 생성될 수 있다. 원본 이미지는 또한, 디지털화된 아날로그 이미지일 수 있다.
컬러로 된 원본 이미지의 경우, 이미지는, 디지털 카메라에 의해 생성된 이미지의, 복합 색상들, 예를 들어, 적색, 녹색 및 청색 서브컴포넌트들(예를 들어, 서브픽셀들)로 분해될 수 있고, 복합 색상들 각각은, 별개의 원본 이미지로서 처리된다. 대안으로서, 복합 색상들은 단일의 원본 이미지로 연결될 수 있다. 예를 들어 25 x 25 RGB 컬러 이미지의 경우, 연결된 원본 이미지는, 이미지가 컬러가 아니라면 625개의 컴포넌트가 아니라 1,875개의 컴포넌트를 가질 것이다.
원한다면, 원본 이미지는 의사 이미지로 변환되기 전에 "제1 레벨 전처리"를 거칠 수 있다. 아래에서 논의되는 제2 레벨 전처리와는 달리, 제1 레벨 전처리는 컴포넌트들의 시퀀스에서 컴포넌트들의 상대적 위치와 상대적 값의 측면에서 이미지의 컴포넌트들 사이의 상대적 관계를 유지한다. 제1 레벨 전처리의 예는, 컴포넌트 수에서의 감소(다운샘플링), 이미지 일부의 자르기, 이미지의 전부 또는 일부의 회전, 이동, 늘이기 및/또는 축소 등의 이미지의 아핀 변환들, 정규화를 포함하지만 이것으로 제한되는 것은 아니다.
원본 이미지에서와 같이, 제1 레벨 전처리된 이미지는 컴포넌트들의 정렬된 시퀀스이고, 각각의 컴포넌트는 시퀀스 내에서 값과 위치를 가진다. 인간이 현실 세계의 하나 이상의 물체를 인식할 수 있는 원본 이미지의 경우, 이러한 물체가 예를 들어 자르기에 의해 모두 제거되지 않는 한, 현실 세계의 하나 이상의 물체는 대개 제1 레벨 전처리 후에도 인간에 의해 여전히 인지가능할 것이다. 제1 레벨 전처리된 이미지 내의 컴포넌트 수는, 이미지로부터 도출된 이미지 내의 컴포넌트 수와 같거나 그보다 적을 수 있다.
일부 응용의 경우, (제2 레벨 전처리를 위한 "시작 이미지"라고 지칭되는) 원본 이미지 또는 제1 레벨 전처리된 이미지에 관해 제2 레벨 전처리가 수행될 수 있다. 한 실시예에서, 제2 레벨 전처리는, 시작 이미지의 푸리에 변환을 수행하고 결과적인 푸리에 계수들을 제1 이미지의 컴포넌트로서 이용하는 것을 포함할 수 있다. 이들 동일한 라인을 따라, 웨이블릿 변환을 이용될 수 있으며 결과 웨이블릿 계수는 제1 이미지의 컴포넌트로서 이용된다. 이들 유형의 전처리는 컴포넌트들의 정렬된 시퀀스인 "축소된 이미지"를 생성할 수 있으며, 각각의 컴포넌트는 시퀀스 내에서 값과 위치를 갖고, 여기서, 축소된 이미지 내의 컴포넌트 수는 시작 이미지 내의 컴포넌트의 수보다 작다. 컴포넌트 수의 감소는 스토리지 요건을 감소시키고 축소된 이미지를 생성하는데 필요한 계산 수에 따라 전체 처리 시간을 단축시킬 수 있다.
원본 이미지 또는 제1 레벨 전처리된 이미지와 마찬가지로, 제2 레벨 전처리된 이미지는 컴포넌트들의 정렬된 시퀀스이며, 각각의 컴포넌트는 시퀀스 내에서 값과 위치를 갖는다. 그러나, 제1 레벨 전처리와 달리 제2 레벨 전처리는 컴포넌트들 사이의 관계를 변경한다. 컴포넌트들 사이의 관계의 변경은, 컴포넌트들의 시퀀스에서 컴포넌트들의 상대적인 값, 컴포넌트들의 상대적 위치, 또는 컴포넌트들의 시퀀스에서 상대적인 값과 상대적인 위치 둘 다의 측면일 수 있다. 결과적으로, 현실 세계의 물체를 포함하는 이미지의 경우, 인간은, 제2 레벨 전처리를 거친 이미지에서 이들 물체를 인식하는 것이 더 어렵거나, 일부 경우에는 인지하는 것이 불가능할 수 있다.
프리젠테이션을 용이화하기 위해 제1 레벨 및 제2 레벨 전처리가 별도로 정의되었지만, 실제로는, 2개의 유형의 전처리가 전체 이미지 인식 프로세스에서 단일의 전처리 단계로 서로 통합될 수 있다. 또한, 각각의 제1 레벨 및 제2 레벨 전처리 단계는 임의의 순서로 여러 번 수행될 수 있다. 현실 세계의 물체가 포함된 이미지의 경우, 제2 레벨 전처리를 거친 이미지에 관해 제1 레벨 전처리가 수행되면, 인간은 결과적인 제2 레벨 후의 제1 레벨 전처리된 이미지에서 현실 세계 물체를 인식하는 것이 더 어렵거나 불가능할 수 있다.
또한, 제1 레벨 전처리 또는 제2 레벨 전처리로서 구체적으로 특성규정될 수 없는 전처리가 이용될 수 있다. 예를 들어, 저역 통과, 고역 통과, 또는 대역 통과 공간 필터링은, 컴포넌트들 사이의 상대적인 값을 변경할 수 있다. 이러한 필터링은, 예를 들어 저역 통과 필터링의 경우 고주파 노이즈가 제거되었거나 고역 통과 필터링의 경우 물체의 가장자리가 향상되었기 때문에, 인간이 현실 세계에서 물체를 인식하는 것이 더 어렵다가 아니라 더 쉽다고 느낄 수 있는 이미지를 생성할 수 있다. 따라서, 전처리는 제1 레벨 및 제2 레벨 전처리를 포함하지만 이것으로 제한되는 것은 아니다.
(B) 제1 이미지
"제1 이미지"는 원본 이미지 또는 전처리를 거친 원본 이미지이다. 따라서, 제1 이미지는 컴포넌트들(예를 들어, 픽셀들)의 정렬된 시퀀스이며, 각각의 컴포넌트는 시퀀스 내에서 값과 위치를 가지고 있다. 위에서 논의한 바와 같이, 전형적인 원본 이미지의 경우, 인간은 원본 이미지에서 현실 세계의 하나 이상의 물체(예를 들어, 인간의 얼굴)를 인식할 수 있을 것이다. 원본 이미지 또는 제1 레벨 전처리만 거친 원본 이미지의 제1 이미지의 경우, 이것은 계속 해당될 것이다. 다른 유형의 전처리의 경우, 인간은 제1 이미지로부터 현실 세계의 물체를 인식하는 것이 어렵거나 불가능할 수 있다.
이하의 논의에서, 제1 이미지는 벡터로서 취급되고, 개개의 제1 이미지는 x n 으로 표시되고 행렬의 열로서 표시된 제1 이미지 세트는 X로서 표현된다. 제1 이미지의 컴포넌트의 수(제1 이미지의 "차원")는 문자 M으로 표시되고 행렬 X 내의 열 수(제1 이미지의 수)는 문자 N으로 표시된다. 따라서, 상기 표기법에서, n은 1과 N 사이의 값을 가질 수 있으며, 각각의 x n 은 M개의 컴포넌트가 있으며, X는 M x N 행렬이다.
이하의 논의에서, 컴포넌트들의 제1 이미지 및 기타의 정렬된 시퀀스는 벡터(1차원 어레이)로서 취급되지만, 컴퓨터에서, 정렬된 컴포넌트들의 시퀀스는, 더 높은 차원의 어레이, 예를 들어, 원한다면 2차원 또는 3차원 어레이로서 저장 및/또는 처리될 수 있다.
(C) 미리결정된 변환 행렬 및 사전 요소
"미리결정된 변환 행렬"은 M개의 행과 K개의 열을 갖는 행렬이다. K개의 열 각각은 "사전 요소" 또는 단순히 "요소"라고 한다. 각각의 사전 요소는 M개의 컴포넌트들의 정렬된 시퀀스이며, 각각의 컴포넌트는 시퀀스 내에서 값과 위치를 가진다. 따라서, 원한다면, 각각의 사전 요소는 이미지로서 디스플레이될 수 있다(예를 들어, 도 4 참조). 아래 논의에서, 미리결정된 변환 행렬은 행렬 Φ로 표현된다.
위에서 설명되고 아래에서 더 상세히 논의되는 바와 같이, 미리결정된 변환 행렬은, 훈련 이미지 행렬의 저밀도, 비음수 분해를 수행하는 단계를 포함하는 방법에 의해 획득된다. 아래에서 논의된 바와 같이, 미리결정된 변환 행렬의 생성과 제1 이미지로부터의 의사 이미지 생성과 관련된 저밀도성은, L1 노옴, L0 노옴, 또는 p가 0보다 크고 1보다 작은 Lp 노옴을 이용하여 측정될 수 있고, 대부분의 경우 L1 노옴이 선호된다. 다른 저밀도성 측정이 역시 이용될 수 있다(아래 참조). 훈련 이미지 행렬은, 알려진 이미지들의 행렬, 구체적으로, 알려진 제1 이미지들의 행렬이다. 이들 알려진 제1 이미지들은 전처리를 거쳤을 수 있다. 이러한 경우, 한 실시예에서, 관심대상의 제1 이미지(단계(a)-제1 이미지)는 훈련 세트를 구성하는 제1 이미지와 동일한 전처리를 거칠 수 있다. 다른 실시예에서, 관심대상의 제1 이미지를 생성하는데 이용되는 전처리는 훈련 세트의 제1 이미지를 생성하는데 이용되는 전처리와는 상이할 수 있다(또는 관심대상의 제1 이미지는 전처리 없는 원본 이미지일 수 있다), 단, 상이한 전처리에도 불구하고, 전처리된 관심대상의 제1 이미지와 훈련 세트를 구성하는 전처리된 제1 이미지가 동일한 수의 컴포넌트(즉, 동일한 M 값)를 갖는다는 점을 전제로 한다.
분해(factorization)는 훈련 이미지에 대한 미리결정된 변환 행렬과 의사 이미지를 생성한다. 미리결정된 변환 행렬과 의사 이미지는 모두 비음수이도록 제약된다. 의사 이미지는 또한, 저밀도로 제약된다. 그러나, 미리결정된 변환 행렬은 저밀도로 제약되지 않다. 따라서, "저밀도, 비음수 분해"라는 문구에서, 비음수성은 미리결정된 변환 행렬과 분해에 의해 생성된 의사 이미지 둘 다에 적용되는 반면, 저밀도성은 의사 이미지에만 적용된다. 미리결정된 변환 행렬을 생성하는 프로세스는, 다른 것들 중에서도 특히, 본질적으로 비선형 프로세스인 교정(rectification)과 유사한 것으로 간주될 수 있는 비음수성 제약의 결과로서, 선형과는 반대로 비선형이다. 마찬가지로, 미리결정된 변환 행렬을 이용하여 제1 이미지로부터의 의사 이미지의 생성도 역시 비선형 프로세스이다.
제1 이미지에 대해 위에서 채택된 행렬 표기법을 이용하여, 훈련 이미지들의 행렬은 행렬 X로 표현될 수 있다. 이 표기법에서, 미리결정된 변환 행렬 Φ는, M 행 N 열의 행렬 X의 저밀도, 비음수 분해를 수행함으로써 획득된 M 행과 K 열을 갖는 행렬이다. 한 실시예에서, 분해는 적어도 하나의 Frobenius 노옴(norm)의 최소화를 이용한다. 이하의 논의에서, 미리결정된 변환 행렬을 이용하여 생성된 개별 의사 이미지는 a로 표시되는 반면, 행렬에서 열로서 배열된 의사 이미지 세트는 A로서 표시된다. 이 표기법을 이용하여, 미리결정된 변환 행렬 Φ를 생성하는데 이용되는 훈련 이미지들의 행렬 XΦ를 결정하는 프로세스 동안에 생성된 훈련 이미지에 대한 의사 이미지 세트 A의 관계는 다음과 같이 쓸 수 있다 :
Figure pct00001
여기서, A는 K개의 행과 N개의 열을 갖는다. 따라서, 미리결정된 변환 행렬은, M차원(X 행렬의 행의 수)을 갖는 베이스로부터 K차원(A 행렬의 행의 수)을 갖는 베이스로의 변환을 수행하는 것으로서 간주될 수 있다.
특정한 동작 이론에 예속되기를 원하지 않지만, A에 관한 저밀도성 제약과 결합된 Φ와 A에 관한 비음수성 제약의 조합은 훈련 세트의 이미지의 키 피처를, 예를 들어 얼굴 이미지의 경우 눈 모양을, Φ에 포함시키도록 강제하여, 이미지 인식의 측면에서 Φ를 견고하게 만드는 것으로 믿어진다. Frobenius 노옴의 이용은 또한, 이 기술의 견고성에 기여할 수 있다. 이러한 노옴들은 제곱된 노옴이므로, 이들은 "에너지"와 관련된 것으로 간주될 수 있으며, 결국 "정보 내용"과 관련된 것으로 간주될 수 있다. 키 피처는, 대부분의 정보 내용을 갖는 피처이며, Frobenius 노옴을 이용함으로써, Φ는 이들 피처들을 캡처하는 것으로 강제될 수 있다. 그 다음, 비음수성 제약은 비-키 피처에 의한 키 피처의 희석을 방지하고 저밀도성 제약은 사전 요소에서 키 피처를 함께 묶는다. 그 결과, 사전 요소는 특정한 수용자 필드들을 가질 수 있다, 즉, 이들은 훈련 세트의 이미지에서 특정한 형상과 형상들의 조합을 캡처할 수 있으며, 충분한 수의 사전 요소를 가짐으로써 견고한 이미지 인식이 달성될 수 있다.
견고성을 달성하기 위한 M(제1 이미지 내의 컴포넌트 수), N(훈련 세트 내의 제1 이미지 수) 및 K(의사 이미지 내의 사전 요소에 대한 요소 가중치 수)에 적합한 값이, 본 개시내용에 기초하여 본 기술분야의 통상의 기술자에 의해 용이하게 결정될 수 있다. 일반적 관점에서, 훈련 세트 내의 제1 이미지 수(N)는 제1 이미지 내의 컴포넌트 수(M)에 따라 스케일링된다, 즉, 제1 이미지 내의 컴포넌트 수(예를 들어, 픽셀 수)가 증가할수록 대개 더 큰 훈련 세트가 필요하다. 또한 일반적 관점에서, N은 K와 거의 같고 대개 K보다 크다.
위에서 논의된 바와 같이, K 자체는 M 및/또는 R에 의존하며, 소정의 실시예에서, K는 관계 K/M ≥ 1.0 및 K/R ≥ 1.0 중 하나 또는 둘 다를 충족하며, 여기서, 앞서와 같이, R은 X 행렬의 랭크이다. 더 구체적으로, 또한 위에서 논의된 바와 같이, 소정의 실시예에서, K/M 및 K/R 비율 중 하나 또는 둘 다는, 2.0 이상, 3.0 이상, 또는 4.0 이상이거나, 또는 5.0 이상이다. 이들 비율은, 그레이스케일 이미지의 경우 특히 중요하며 2진 이미지의 경우 원한다면 완화될 수 있다. 또한, 일반적으로, K의 값은 N에 따라 스케일링된다, 즉, N이 증가함에 따라, 일반적으로 K가 증가하는 것이 바람직하다. 그러나, K를 증가시키는 것은 또한, 계산(CPU) 시간 및/또는 메모리 요건을 포함한 계산 자원에 대한 요구도 증가한다. 또한, K가 너무 커지면 K 증가의 효과가 감소할 수 있다. 따라서, 본 기술분야의 통상의 기술자에게 명백한 바와 같이, 본 명세서에서 개시된 이미지 인식 기술의 임의의 특정한 응용에 대해, K, M 및 N의 값을 선택할 때 정확도와 계산 비용의 측면에서 절충이 이루어진다.
위에서 논의되고 아래에서 더 완전하게 논의되는 바와 같이, K는 미리결정된 변환 행렬을 이용하여 M차원의 제1 이미지로부터 획득된 의사 이미지의 차원이며 따라서 견고성을 달성하기 위해, 한 실시예에서, 의사 이미지의 차원은, M x N 행렬이 풀 랭크이고 N > M일 때, 의사 이미지의 차원이 원한다면 제1 이미지의 차원보다 작을 수 있는 2진 이미지의 경우를 제외하고 제1 이미지의 차원보다 클 것이다. M x N 행렬은 전형적으로 풀 랭크에서 멀지 않다, 즉, R은 M보다 훨씬 작지 않으므로 K ≥ M을 충족하는 것이 K ≥ R을 충족하는 것보다 훨씬 더 엄격하지 않을 것이다. M 공간으로부터 K 공간으로의 변환은 K가 R보다 크거나 같지만 M보다 작을 때 제1 이미지의 정보 내용을 캡처하는데 이용되는 차원 수가 공식적으로 확장되는 것은 아니지만, 변환은 크게 압축되지 않는다. 이것은, 변환이 차원 수를 다소 감소시킬 수 있지만 전형적으로 그다지 크지 않은 정도인 2진 이미지의 경우에도 마찬가지이다. 위에서 언급한 바와 같이, 본 명세서에서 개시된 이미지 인식 기술의 M → K 압축해제 전략은 이미지 처리가 확장이 아니라 데이터 압축에 기초한다는 기존의 통념에 위배된다. 마찬가지로, 작은 압축만으로도 기존의 통념에 위배된다.
(D) 의사 이미지 및 요소 가중치
"의사 이미지"는 K개의 컴포넌트들의 정렬된 시퀀스이며, 각각의 컴포넌트는 시퀀스 내에서 값과 위치를 가진다. 따라서, 원하는 경우, 의사 이미지가 이미지로서 디스플레이될 수 있다(예를 들어, 도 5 및 도 6의 그레이스케일 의사 이미지 참조). 실제로, 즉, 컴퓨터 코딩의 목적을 위해, 의사 이미지는 벡터로서 취급될 수 있다.
위에서 논의된 바와 같이, 의사 이미지는, 제1 이미지의 비선형 변환, 구체적으로 위에서 논의된 미리결정된 변환 행렬을 이용하여 수행된 제1 이미지의 저밀도, 비음수 변환에 의해 제1 이미지로부터 획득된다. 변환은 비음수성 제약을 적용하기 때문에, 의사 이미지의 K개의 컴포넌트 각각의 값은 0 또는 양수이다.
K 컴포넌트 각각은, 제1 이미지로부터 의사 이미지를 구성하는데 이용되는 미리결정된 변환 행렬의 K개 사전 요소(K개 열) 중 하나에 대한 '요소 가중치'로서 기능한다. 제1 이미지로부터 의사 이미지로의 변환은 의사 이미지에 관해 저밀도성 제약을 적용하기 때문에, 대개는 더 큰 값을 갖는 소수의 컴포넌트(요소 가중치)와 더 작거나 0 값을 갖는 많은 컴포넌트(요소 가중치)가 있다(예를 들어, 도 6 및 도 7 참조). 실제로, 더 큰 값을 가진 컴포넌트만이 저장되고 알려진 이미지의 의사 이미지와 관심대상의 의사 이미지의 비교에 이용될 필요가 있다. 따라서, "의사 이미지"라는 용어는, 저장 및/또는 이용되는 의사 이미지가 모든 K개의 컴포넌트를 포함하는 경우와, 의사 이미지가 모든 K개 미만의 컴포넌트를 포함하는 경우를 포함하며, 더 작은 컴포넌트는 저장 및/또는 이용되는 의사 이미지에 명시적으로 포함되지 않는다.
2차원 어레이로서 디스플레이될 때, 인간은 의사 이미지를 현실 세계의 물체를 보여주는 것으로서 인식하지 않는다(예를 들어, 도 5 및 도 6의 그레이스케일 의사 이미지 참조). 이것은, 제1 이미지가 의사 이미지로 변환되기 전에 인간이 제1 이미지에서 현실 세계의 물체를 인식할 수 있는 경우에도 그렇다, 즉, 제1 이미지가 원본 이미지이거나 제1 레벨 전처리만을 거친 원본 이미지인 경우에도 그렇다(예를 들어, 도 5 및 도 6의 그레이스케일 제1 이미지 참조). 이것은, 이미지의 분류 및/또는 식별이, 인간이 인지할 수 있는 물체를 포함하지 않는 이미지를 이용하여 수행된다는 점에서 현재 기술의 중요한 차이점이다. 다른 것들 중에서도 특히, 이것은 특정한 개인의 인간이 인지할 수 있는 이미지의 저장을 방지하고 따라서 이러한 저장과 연관된 사생활보호 문제를 방지한다.
(E) 의사 이미지 라이브러리
"의사 이미지 라이브러리"는, 관심대상의 제1 이미지(단계(a)-제1 이미지)로부터 획득된 관심대상의 의사 이미지(단계(c)-의사 이미지)의 분류 및/또는 식별에 이용되는 의사 이미지 세트이다.
(F) 분류 및 식별
"분류"는, 소정의 이미지를, 하나 이상의 공통 특성(예를 들어, 클래스 또는 범주)을 갖는 적어도 2개의 멤버를 갖는 세트와 연관시키는 반면, "식별"은 소정의 이미지를 하나의 멤버, 예를 들어, 개인을 갖는 세트와 연관시키는 것이다.
상세한 설명 및 바람직한 실시예
도 1 내지 도 8은 본 개시내용의 이미지 인식 기술의 실시예를 나타낸다. 특히, 이들 도면은 얼굴 인식의 문제에 기술이 적용되는 실시예를 나타낸다. 도면을 생성하는데 이용되는 특정한 절차는 아래에서 및 예 1에서 논의된다.
이 시점에서 이하의 전반적인 논의에 대한 정황을 제공하기 위해 이 시점에서 상세한 설명에 도면들이 도입된다. 기술을 설명하기 위한 수단으로서의 얼굴 인식의 이용은 제한하는 것으로 간주되어서는 안되며, 본 명세서에서 개시된 의사 이미지 기술은, 물체 인식, 심볼 인식 등을 수반하는 문제 등의 다른 이미지 인식 문제에도 동일하게 적용될 수 있다는 것을 이해해야 한다(본 명세서에 개시된 기술의 다른 비제한적 응용에 대해서는 이하의 산업상 이용가능성 섹션을 참조).
도 1 내지 도 8에 나타낸 개시된 이미지 인식 기술의 양태는 다음과 같다 :
(1) 도 1은 관심대상 사람의 원본 이미지를 도시한다.
(2) 도 2a 및 도 2b는 2개 라운드의 제1 레벨 전처리 후 도 1의 원본 이미지를 도시하며, 특히 도 2a는 자르기 후 원본 이미지를 도시하고 도 2b는 다운샘플링 후의 이미지를 도시한다. 도 2b의 이미지는 관심대상의 제1 이미지(단계(a)-제1 이미지)이며, 이것은 후속해서 의사 이미지, 구체적으로 단계(c)-의사 이미지로 변환된다.
(3) 도 3은 도 2b의 관심대상의 제1 이미지를 획득하는데 이용된 것과 동일한 2개 라운드의 제1 레벨 전처리를 이용하여 획득된 제1 이미지들의 훈련 세트의 일부를 도시한다.
(4) 도 4는 도 3의 일부가 취해졌던 전체 훈련 세트를 이용하여 획득된 미리결정된 변환 행렬의 사전 요소들의 일부를 도시한다.
(5) 도 5는 의사 이미지 라이브러리의 일부를 도시한다.
(6) 도 6은 도 2b의 관심대상의 제1 이미지에 대한 관심대상의 의사 이미지를 도시한다. 관심대상의 의사 이미지는, 그 사전 요소들 중 일부가 도 4에 도시되어 있는 미리결정된 변환 행렬을 이용하여 획득되었다.
(7) 도 7은 도 6의 관심대상의 의사 이미지의 가장 큰 요소 가중치들(계수 값들)을 가진 사전 요소들을 도시한다.
(8) 도 8은 도 5의 일부가 취해졌던 전체 의사 이미지 라이브러리와 도 6의 관심대상의 의사 이미지의 비교에 의해 관심대상의 제1 이미지 및 그에 따른 원본 이미지의 식별의 보고를 도시한다.
위에서 논의된 바와 같이, 본 개시내용은 이미지 인식을 수행하기 위해 의사 이미지를 이용한다. 이 프로세스는, 전형적으로, 관심대상의 제1 이미지(예를 들어, 도 2b를 참조)를 생성하기 위해 적어도 일부 전처리(예를 들어, 자르기 및 다운샘플링)를 거치는 원본 이미지(예를 들어, 도 1 참조)로 시작한다. 대안으로서, 원본 이미지는, 전처리없이 관심대상의 제1 이미지로 직접 이용할 수 있다. 위에서 용어 및 표기법 섹션에서 논의된 바와 같이, 관심대상의 제1 이미지는 편리하게 벡터 x로서 표현된다.
관심대상의 제1 이미지는, 제1 이미지들의 훈련 세트(예를 들어, 도 3 참조)를 이용하여 획득된 사전 요소(예를 들어, 도 4 참조)로 구성된 미리결정된 변환 행렬을 이용하여 관심대상의 의사 이미지(예를 들어, 도 6 및 도 7 참조)로 변환된다. 용어 및 표기법 섹션에서 위에서 논의한 바와 같이, 관심대상의 의사 이미지는 벡터 a로, 미리결정된 변환 행렬은 행렬 Φ로, 제1 이미지들의 훈련 세트, 즉, 훈련 이미지에 대한 x 벡터 세트의 모음은 행렬 X로, 훈련 세트에 대한 의사 이미지는 행렬 A로 편리하게 표시된다.
관심대상의 제1 이미지의 분류 및/또는 식별과 그에 따른 원본 이미지는, 관심대상의 의사 이미지를 의사 이미지 라이브러리와 비교함으로써 수행된다(예를 들어, 도 5 참조). 비교 결과들은 예를 들어 정합이 발견된 라이브러리 내의 엔트리에 대응하는 알려진 이미지를 디스플레이하거나 분류의 경우 클래스 또는 범주에 대한 식별자를 디스플레이함으로써 사용자에게 보고될 수 있다. 비교 결과들은, 분류 및/또는 식별이 정확할 가능성의 표시, 예를 들어 관심대상의 제1 이미지가, 클래스, 범주 또는 개인에 대응할 가능성의 표시를 포함할 수 있다. 표시는 유사성 또는 비교 점수일 수 있다(예를 들어, 도 8 참조).
미리결정된 변환 행렬은, 벡터화된 제1 이미지들의 행렬(훈련 세트)에 관해 저밀도, 비음수 분해를 수행하는 단계를 포함하는 방법에 의해 획득된다. 훈련 세트의 크기는 수행될 분류 및/또는 식별에 의존할 것이다. 예를 들어, 얼굴 인식의 경우, 분류 및/또는 식별이 제한된 세트의 개인들, 예를 들어, 특정한 시설에 대한 액세스가 허용되는 개인들에 관해 수행되어야 한다면, 미리결정된 변환 행렬이 제한된 세트의 개인들을 분류 및/또는 식별하고 이들을 그 제한된 세트 내에 있지 않은 개인들과 구별할 수 있도록 그 세트 내에 충분한 개인이 포함되어 있다면 비교적 작은 훈련 세트로 충분할 것이다. 다른 극단에서, 일반 집단 내의 개인의 분류 및/또는 식별은, 일반적으로, 분류 및/또는 식별을 수행하기 위해 미리결정된 변환 행렬에 충분한 피처가 임베딩되도록 대규모 훈련 세트를 요구할 것이다. 본 명세서에 개시된 이미지 인식 기술의 임의의 특정한 응용에 대한 훈련 세트에 대한 적합한 크기는, 본 개시내용에 기초한 일상적인 실험에 의해 쉽게 발견될 수 있다.
소정의 실시예에서, 불완전한 이미지에 관한 이미지 인식은 제한적으로 수행되며, 일부 경우에는 훈련 세트에 불완전한 이미지가 없다. 구체적으로, 불완전한 이미지에 관한 이미지 인식, 특히 불완전한 얼굴 이미지에 관한 얼굴 인식은, 훈련 세트에 의도적으로 많은 수의 불완전한 이미지를 포함할 필요없이 수행될 수 있음이 밝혀졌다. 원하는 경우 불완전한 이미지가 훈련 세트에 포함될 수 있으며, 일부 경우에, 훈련 세트 내의 제한된 수의 불완전한 이미지가 유용할 수 있다. 예를 들어, 불완전성이 예를 들어 자세 및/또는 얼굴 표정인 불완전한 이미지들의 훈련 세트에 포함시키는 것은, 일부 경우에 분류 및/또는 식별의 측면에서 미리결정된 변환 행렬을 더욱 견고하게 할 수 있다.
이전의 이미지 인식 기술, 및 특히 이전의 얼굴 인식 기술과 달리, 많은 수의 불완전한 이미지는 성공적인 이미지 인식을 위한 요건이 아니다. 이러한 요건이 없기 때문에, 보통의 경우에 필요한 것보다 더 작은 훈련 세트의 이용이 허용된다. 이러한 더 작은 훈련 세트는, 결국, 미리결정된 변환 행렬을 생성하는데 이용되는 프로세스의 속도 및/또는 스토리지 요건을 개선한다. 이들 더 높은 속도 및/또는 더 작은 스토리지 고려사항은 또한, 라이브러리가, 훈련 세트, 훈련 세트와 추가 의사 이미지, 또는 훈련 세트를 제외한 의사 이미지 세트에 기초하는지에 관계없이 의사 이미지 라이브러리에도 적용된다(아래 참조). 마찬가지로, 더 높은 속도 및/또는 더 작은 스토리지 고려 사항은, 관심대상의 의사 이미지와 하나 이상의 의사 이미지 라이브러리의 비교에 적용된다.
위에서 논의된 바와 같이, 일부 실시예에서, 관심대상의 제1 이미지는 전처리를 거친 원본 이미지이고, 여기서 전처리는, 제1 레벨 전처리, 제2 레벨 전처리, 또는 제1 레벨 및 제2 레벨 전처리의 조합일 수 있다. 전처리가 이용될 때, 미리결정된 변환 행렬을 생성하는데 있어서의 그 이용 전에 동일한 전처리가 훈련 세트에 대해 수행되는 것이 바람직하다. 이러한 전처리 공통성은 향상된 이미지 인식을 제공할 수 있기 때문에 선호되지만, 성공적인 이미지 인식을 위한 요건은 아니다. 훈련 세트의 제1 이미지와 관심대상의 제1 이미지 사이의 이러한 공통 전처리 요건의 부재는 많은 상황에서 도움이 될 수 있다. 구체적으로, 이것은, 주어진 훈련 세트가 다양한 정도의 전처리를 거친 관심대상의 제1 이미지와 함께 이용되는 것을 허용함으로써 전체 프로세스에 유연성을 제공한다.
관심대상의 제1 이미지에 대한 관심대상의 의사 이미지는, 미리결정된 변환 행렬을 이용하여 획득되어 관심대상의 제1 이미지의 저밀도, 비음수 변환을 수행한다. 미리결정된 변환 행렬을 생성하는 분해는 또한, 훈련 세트의 멤버에 대한 의사 이미지를 생성한다. 소정의 실시예에서, 원본 이미지의 분류 및/또는 식별은, 관심대상의 의사 이미지를 훈련 세트의 멤버들에 대한 의사 이미지들과 비교함으로써 수행될 수 있다. 이러한 경우, 훈련 세트의 멤버에 대한 의사 이미지는 분류 및/또는 식별을 수행하기 위한 의사 이미지 라이브러리로서 기능한다.
관심대상의 의사 이미지는 또한, 분류 및/또는 식별 이외의 목적으로도 이용될 수 있다. 예를 들어, 관심대상의 제1 이미지가, 그 범주, 클래스 또는 신원은 알려져 있지만 아직 의사 이미지 라이브러리의 일부가 아닌 사람, 물체, 심볼 등에 대한 것이라면, 관심대상의 의사 이미지는 하나 이상의 라이브러리를 증강하는데 이용될 수 있다, 즉, 관심대상의 의사 이미지가 하나 이상의 라이브러리에 추가될 수 있다. 이렇게 확장된 라이브러리 또는 라이브러리들은, 향후에 관심대상의 제1 이미지 및 그에 따른 원본 이미지의 분류 및/또는 식별에 이용될 수 있다. 이러한 방식으로, 의사 이미지 라이브러리는 시간이 지남에 따라 이미지의 분류 및/또는 식별에 더 가치가 있게 될 수 있다.
일부 실시예에서, 상이한 크기의 라이브러리들을 포함한, 복수의 의사 이미지 라이브러리가 분류 및/또는 식별 프로세스에서 이용될 수 있다. 분류 및/또는 식별 프로세스는 관심대상의 의사 이미지를 모든 라이브러리 또는 라이브러리들의 서브셋과 비교할 수 있다. 예를 들어, 충분한 신뢰 수준을 가진 정합이 발견되어 비교 프로세스가 종료될 수 있을 때까지, 비교 프로세스는 선택된 순서로, 예를 들어, 가장 작은 라이브러리로부터 가장 큰 라이브러리로, 라이브러리들을 통해 진행할 수 있다.
일부 실시예에서, 의사 이미지 라이브러리는 훈련 세트의 멤버에 대한 의사 이미지를 포함할 필요가 없다, 즉, 라이브러리는 훈련 세트의 멤버들의 일부 또는 전부를 제외할 수 있다. 예를 들어, 얼굴 인식과 관련하여, 이것은, 훈련 세트가 얼굴 피처에서의 충분한 다양성을 제공하여 해당 개인이 훈련 세트 내에 있는지에 관계없이 다양한 개인으로부터 얼굴 피처를 추출할 수 있는 미리결정된 변환 행렬을 생성하는 경우일 수 있다.
이러한 실시예에서, 얼굴 인식이든 다른 유형의 이미지 인식이든, 훈련 세트는 분류 및/또는 식별을 수행하기에 충분한 정보를 포함하는 관심대상의 의사 이미지를 생성할 수 있는 능력을 미리결정된 변환 행렬에 시딩(seed)하는 것으로 간주될 수 있다. 일단 미리결정된 변환 행렬이 잘 시딩되고 나면, 훈련 세트가 그 목적을 달성한 것으로 볼 수 있으므로 비교 단계에 더 이상 필요하지 않다. 형법 분야의 한 구체적인 예로서, 훈련 세트는 범죄 기록을 갖지 않는 개인들로 구성될 수 있으며, 의사 이미지 라이브러리는 범죄 기록을 갖는 개인만을 포함할 수 있다.
전술된 것은, 본 명세서에서 개시된 이미지 인식 기술의 실행에 이용될 수 있는 매우 다양한 의사 이미지 라이브러리의 몇 가지 비제한적인 예일 뿐이다. 일반적 관점에서, 비교 단계에서 이용되는 의사 이미지 라이브러리 또는 라이브러리들은 특정한 이미지 인식 상황의 요구를 충족하도록 조정된다. 시간이 지남에 따라 요구가 변하기 때문에 라이브러리 또는 라이브러리들의 조정도 역시 발생할 수 있다. 따라서, 의사 이미지를 추가하거나 뺄 수 있으며, 라이브러리는 서로 결합되거나 초기 또는 후속 요구에 기초하여 부분들로 세분될 수 있다. 임의의 특정한 응용에 대한 라이브러리 또는 라이브러리 세트를 선택할 때 고려될 수 있는 파라미터들 중에는, 라이브러리 또는 라이브러리들로 달성된 이미지 인식의 정확도(신뢰 수준), 라이브러리 또는 라이브러리들의 포괄성, 프로세스 속도, 및 메모리 요건이 있다. 전형적으로, 이들 경쟁하는 고려사항들간에는 종종 절충이 필요할 것이다.
관심대상의 의사 이미지와 하나 이상의 의사 이미지 라이브러리의 비교는, 다양한 방식으로 수행될 수 있다. 예를 들어, 관심대상의 의사 이미지와 라이브러리의 의사 이미지들 사이에서 Euclidean 거리가 계산될 수 있으며, 더 작은 거리는 관심대상의 의사 이미지와 라이브러리의 특정한 의사 이미지 사이의 대응관계를 나타낸다. 또 다른 예로서, 코사인 유사성 값(점수)이 계산될 수 있다, 즉, cos(θ) 값이 계산될 수 있고, 여기서 θ는 관심대상의 의사 이미지와 라이브러리의 특정한 의사 이미지 사이의 각도이며, 둘 다 벡터로 취급된다. 관심대상의 의사 이미지가 라이브러리의 특정한 의사 이미지와 정렬되거나 거의 정렬되면, θ는 0 또는 거의 0과 같으므로, 코사인 유사성 값은 1.0이거나 1.0에 가까워, 관심대상의 의사 이미지 및 라이브러리의 특정한 의사 이미지 사이의 대응관계를 나타낸다.
어떤 측정치 또는 측정치들이 이용되든지, 라이브러리의 의사 이미지는 알려진 이미지에 대한 것이기 때문에, 비교 결과들은, 예를 들어, 관심대상의 의사 이미지에 대응하는 제1 이미지가 다음 중 하나 이상인지를 결정하는데 이용될 수 있다 :
(i) 알려진 이미지들의 하나 이상의 클래스 또는 범주에 속함,
(ii) 한 특정한 알려진 이미지,
(iii) 알려진 이미지들의 하나 이상의 클래스 또는 범주에 속하지 않음, 및
(iv) 알려진 이미지가 아님.
비교 결과들은 다양한 방식으로 이용될 수 있다. 한 기본적인 용도는, "정합"이 발견되거나 발견되지 않았다는, 시각적, 구두 또는 기타 유형의 통보를 사용자에게 제공하는 것이다. 통보는, 전형적으로, 알려진 이미지의 이름만큼 간단하거나 식별의 신뢰 수준 표시를 포함하는 기타의 데이터를 포함할 수 있는 보고서를 동반할 것이다. 보고서는, 시각적, 구두 또는 기타의 형태일 수 있다. 머신 비전의 경우, 비교 결과들은, 예를 들어 로봇에 의한 실행을 위한 명령어 세트, 예를 들어 특정한 방식으로 식별된 물체와 상호작용하는 명령어일 수 있다. 비교 결과들이 이용될 수 있는 다른 방식은, 본 개시내용으로부터 본 기술분야의 통상의 기술자에게 명백할 것이다.
미리결정된 변환 행렬 Φ를 훈련 이미지들의 행렬 X의 분해에 의해 획득하기 위해 다양한 알고리즘이 이용될 수 있다. 유사하게, 다양한 알고리즘을 이용하여 관심대상의 제1 이미지 x를 관심대상의 제1 의사 이미지 a로 변환할 수 있다. 다음은 이용할 수 있는 적절한 알고리즘의 비제한적인 예이다.
훈련 이미지 세트 이용하여 미리결정된 변환 행렬을 생성하기 위한 알고리즘
개시된 방법의 패턴 인식의 견고성에 대한 핵심은, 미리결정된 변환 행렬이다. 위에서 논의된 바와 같이, 미리결정된 변환 행렬은 훈련 세트로서 이용되는 제1 이미지 세트로부터 획득된다. 미리결정된 변환 행렬을 생성하는 프로세스는, 제1 이미지들의 훈련 세트를 포함하는 행렬을 2개의 별개의 행렬로 분해하는 것을 포함한다. 행렬을 2개의 별개의 행렬로 분해하는 것은, 일반적으로, 역사적으로 독립적인 신호 소스를 식별하거나 근사화하기 위해 개발된 BSS(Blind Source Separation)를 특징으로 하는 접근법이다. BSS에 대한 일반적인 논의는 Comon and Jutten 2010 and Yu, Hu et al. 2014에서 찾아볼 수 있다. 본 명세서에서 개시된 방법은, 행렬 및 (열) 벡터에 관한 연산 및 선형 방정식 시스템에 대한 해를 포함하는 선형 대수를 이용하며, 그 전반적인 논의는 Gill, Murray et al. 1991 and Strang 2006에서 찾아 볼 수 있다. 이 방법은 또한, 최적화 기술을 이용하며, 그 전반적인 논의는 문헌(Gill, Murray et al. 1991, Dantzig and Thapa 1997, Chen, Donoho et al. 2001, Boyd and Vandenberghe 2004, Candes and Tao 2005, Donoho 2006, Comon and Jutten 2010, Donoho, Tsaig et al. 2012, Yu, Hu et al. 2014)에서 찾아 볼 수 있다.
일반적 관점에서, 미리결정된 변환 행렬의 생성은 2 단계 프로세스를 통해 달성될 수 있다. 먼저, 아직 디지털화되지 않은 훈련 세트 내의 각각의 이미지는 디지털화되고 필요에 따라 차원 m1 x m2, 예를 들어, 25 x 25 = 625의 제1 이미지로 전처리된다. 위에서 논의된 바와 같이, 전처리는, 바람직하게는, 이미지 인식을 거칠 원본 이미지에 관해 수행되는 것과 동일하다. 제1 이미지는 또한 M차원 벡터(M = m1 · m2)로서 표시되므로 각각의 제1 이미지는 훈련 세트 행렬 X의 열 벡터를 형성할 수 있다. N개의 제1 이미지(예를 들어, N개의 얼굴)로 구성된 훈련 세트의 경우, 훈련 세트 행렬 X는 M x N차원 행렬이다.
제2 단계에서, 행렬 X는 2개의 행렬 AΦ로 분해된다. 여기서, Φ는 미리결정된 변환 행렬이다. Φ의 차원은 M x K이다. A는 K x N 행렬로서, K 차원에서 N개의 제1 이미지를 나타낸다. A의 각각의 열은 훈련 세트의 대응하는 제1 이미지를 의사 이미지로 변환한 것이며, 의사 이미지의 차원은 K이다.
제1 이미지들의 훈련 세트를 이용하여, 훈련 세트의 제1 이미지들에 대응하는 의사 이미지들이 저밀도이도록 하는 방식으로 미리결정된 변환 행렬이 생성된다. 의사 이미지는 고유하지 않지만, 아래 알고리즘 1에서와 같이, 훈련 세트를 구성하는 이미지와 A 및 Φ의 초기화 단계에 의존한다는 점에 유의한다. 그러나, 일단 Φ가 결정되고 나면, Φ를 이용하여 생성된 의사 이미지(예를 들어, 아래 알고리즘 2를 이용하여 생성된 의사 이미지)는 Φ에만 의존하며, 의사 이미지 생성 프로세스에 이용되는 초기화와는 독립적이며, 예를 들어, 알고리즘 2와 관련하여 아래에서 논의되는 바와 같이, 의사 이미지 생성 프로세스에 이용되는 초기화는 예를 들어 무작위일 수 있다.
본 명세서에 개시된 방법에서, BSS 문제에 대해 2개의 제약이 부과된다. 첫째, ΦA의 모든 요소는 비음수일 것이 요구된다. 둘째, A는 저밀도일 것이 요구된다. 이들 제약은, 의사 이미지를 생성하는데 이용되는 미리결정된 변환 행렬을 획득하는데 있어서 중요하다. 특히, 이들 제약은 견고한 이미지 인식을 위해 중요하다. 저밀도성 제약으로 인해, 제1 이미지의 형태학적 피처를 사전 요소로 구분 그룹화하여, 상이한 형태를 가진 제1 이미지들이 동일한 유의 계수(significant coefficient)를 공유하지 않게 된다. 비음수성 제약은 훈련 세트에서 함께 발생하는 피처들의 함께 그룹화를 강제한다. 이것은, 복합 피처 조합에서 피처가 삭제되게 할 수 있는 음의 계수의 이용을 방지함으로써 달성된다. 따라서 비음수성 제약은 사전 요소가 과도하게 복잡해지는 것을 방지한다, 즉, 실제 이미지에서 동시에 발생하지 않는 복합 피처 조합이, 음의 계수가 허용되는 경우 발생할 수 있는 것과 같이, 분석에 남아 있는 것을 방지한다. 이들 2개의 제약의 결과, 제1 이미지에서 함께 발생할 가능성이 있는 피처들이 몇개의 사전 요소로서 추출되고, 제1 이미지에서 동시에 발생하는 피처 조합들을 묶어 별개의 사전 요소로 정의한다. 따라서 이러한 배열은 이들 피처들에 대한 사전 요소와, 마찬가지로 제1 이미지에서 함께 발생하는 경향이 있는 다른 피처들에 대한 사전 요소 사이의 구별을 최대화한다.
즉, 이들 2개의 제약은 통계적 관계에 기초하여 소스 피처를 분류(집계)하는데 있어서 매우 효과적이다. 예를 들어, 코의 특정한 윤곽은 소정의 뺨 피처를 가진 한 사전 요소에 있는 반면, 귀 모양과 눈썹 피처는 훈련 세트에서 이용된 얼굴에 기초하여 또 다른 사전 요소에 있다. 예를 들어, 훈련 세트 내의 모든 얼굴이 실질적으로 동일한 귀를 갖는 경우, 저밀도성 제약은, "귀"가 이 특정한 훈련 세트 내의 얼굴들을 구별하는 정보 내용을 거의 갖지 못하기 때문에 귀를 사전 요소에 캡처된 다른 피처와 함께 묶는 경향이 있다. 따라서, 훈련 세트를 선택할 때 A에 적용된 저밀도성 제약에 의해 정보 피처들이 사전 요소로부터 제외되지 않도록 광범위한 피처들에 대해 충분한 다양성을 갖는 것이 가치가 있을 수 있다. 저밀도성은 독립된 사전 요소들의 형성을 구동하는데 효과적이지만, 최대 독립성이 보장되지 않다는 점에 유의한다.
훈련 세트 행렬 X의 분해에 있어서, 목표는 방정식의 양 변 사이의 오차를 최소화하는 행렬 AΦ를 생성하는 것이다 :
Figure pct00002
동시에 ΦA의 모든 요소는 비음수이고(즉, Φ ≥ 0 및 A ≥ 0) A는 저밀도일 것을 여전히 요구한다. 저밀도성은 상이한 형태들로 측정될 수 있다. 가장 흔한 측정값은 L1 및 L0 노옴이다. 저밀도성의 L1 측정값이 이용되면, 의사 이미지의 컴포넌트들의 절대 값의 합이 최소화되는 반면, 저밀도성에 대한 L0 측정값이 이용된다면, 의사 이미지는 최소화된 요소 수, 즉, 비음수성 제약으로 인해 최소화된 양의 요소 수를 가질 것이다. 저밀도성이 L1 노옴에 의해 정의될 때, 최소화 문제는 다음과 같은 형태를 취한다 :
Figure pct00003
여기서,
Figure pct00004
는 Lp 노옴, 즉, 절대 값들의 p번째(p > 0) 거듭제곱의 합계의 p번째 제곱근을 나타낸다. 이 표기법에서,
Figure pct00005
은, 벡터 a 또는 행렬 A의 L1 노옴, 즉, a 또는 A에 있는 모든 계수 값의 절대 값의 합을 나타낸다. 따라서, 이 문제를 해결하기 위한 프로세스는, 방정식의 양변의 Frobenius 노옴 차이(즉, Euclidean 거리)의 최소화와 L1 노옴의 최소화를 요구한다.
0이 아닌 요소의 수인 L0 노옴의 경우, 최소화 문제는 다음과 같은 형태를 취한다 :
Figure pct00006
L0 노옴은 고전적인 노옴 정의가 아니라는 점에 유의한다. 또한, L0 최소화는 NP 어려운 문제(NP hard problem)이기 때문에 L0 노옴은 일반적으로 실제로 이용되지 않는다. L1 노옴을 이용하는 것은, 그 자체로 저밀도성 측정값을 제공할 뿐만 아니라, 최소화 문제를 해결할 때 L0 노옴에 가장 가까운 볼록 대리(convex surrogate)를 제공한다. p가 0보다 크고 1보다 작으며 대개는 작은(예를 들어, p = 10-5) Lp 노옴을 이용하여 저밀도성을 정의하는 것도 역시 가능하다. L0, L1 및 Lp(0 < p < 1) 외에도, 저밀도성 측정은 Hoyer(Hoyer 2004)에 의해 정의된 것 또는 Gini Index(Hurley and Rickard 2009)라고 지칭되는 것 등의 다른 형태를 취할 수 있다. 상기의 표현식에서 λ는 저밀도성 제약의 엄격성을 조정하는데 이용되는 파라미터라는 점에 유의한다. 실제로, λ의 값은 프로세스가 진행됨에 따라 알고리즘에 의해 선택될 수 있다. 반복 횟수의 함수로서 λ를 선택하기 위한 적절한 알고리즘의 비제한적인 대표적인 예가 아래에 나와 있다.
실제로, 저밀도, 비음수 BSS를 수행하는 프로세스는 볼록 최적화 문제이다. 적절한 알고리즘의 전반적인 개요는 아래 알고리즘 1에 개시되어 있으며, 이 알고리즘은 먼저 ΦA를 계산을 시딩하는 비음수 랜덤 행렬로 초기화한 다음, (이 특정한 알고리즘에 대해 함수 기울기의 순 움직임의 부재에 의해 정의되는) 수렴이 달성될 때까지 부과된 제약을 충족하도록 계산 프로세스를 반복한다. 예에서, 구체적으로는, 예에서 이용된 Φ 행렬의 생성에서, 비음수 블라인드 소스 분리 알고리즘 nGMCA (Rapin, Bobin et al. 2013, Rapin, Bobin et al. 2013)이 이용되었다. 이 BSS 알고리즘은 알고리즘 1의 구체적인 예이다. 저밀도성은 L1 노옴을 이용하여 측정되었다. 각각의 반복 i에서, 마지막 반복에 대한 A 값(A i-1)이 (A i)를 결정하기 위한 초기 값으로서 이용되었고, 마찬가지로, 마지막 반복에 대한 Φ 값(Φ i-1)이 (Φ i)를 결정하기 위한 초기 값으로서 이용되었다.
알고리즘 1:
Figure pct00007
이 알고리즘의 람다 값은 반복 횟수 i에 따라 다르다. 전형적으로, 람다는 프로세스의 시작에서 높은 수준의 저밀도성을 강제하기 위해 큰 값으로 시작한 다음, 더 높은 반복에 따라 감소하고, 최종 값은 전형적으로 1.0보다 작거나 같다. 예를 들어, 람다는 다음과 같은 유형의 공식으로부터 계산될 수 있고, 원하는 경우 다른 공식을 이용할 수 있는 것으로 이해한다:
Figure pct00008
이 공식에서, i는 반복 횟수이고,
Figure pct00009
X-Φ i A i 의 요소들의 표준 편차이며, 여기서, 요소들은 한 세트의 숫자로서 취급된다.
I, 즉, 최대 반복 횟수의 초기화와 관련하여, 이하에 개시된 예에서, I는 500으로 설정되었다. 통상의 기술자라면, 이미지들의 훈련 세트를 이용하여 예비 계산을 수행함으로써 Φ를 획득하는데 이용될 수 있는 알고리즘 1 또는 기타 알고리즘의 임의의 특정한 적용에 대해 I의 적절한 값을 결정할 수 있다. 예에서 I에 도달하거나 경사 하강이 중지되었을 때, X의 열과 ΦA 열 사이의 L2 차이는 오류 측정값으로서 계산되었고 이들 차이의 중앙값은 이하의 알고리즘 2에서 오류 임계값(ε)으로서 이용되었다.
제1 이미지로부터 의사 이미지를 생성하기 위한 알고리즘
제1 이미지에 대한 의사 이미지를 생성하는 프로세스는, 미리결정된 변환 행렬 Φ에 기초한 최소화의 프로세스이다. 이것은, 벡터 x가 제1 이미지를 나타내는 M 차원 벡터이고 벡터 a는 제1 이미지에 대한 의사 이미지를 구성하는 K 차원 벡터인 다음과 같은 문제
Figure pct00010
에 대한 해(solution)로서 공식화된다. 목표는
Figure pct00011
방정식의 2개의 변 사이에 최소 오차를 유지하면서 가장 저밀도의 K 차원 벡터 a를 찾는 것이다.
예를 들어 상기 선형 대수 텍스트북(Gill, Murray et al. 1991, Strang 2006)에서 논의된 바와 같이, 이 문제에 대한 고유 해를 위한 충분 조건은 아닌 필요 조건은
Figure pct00012
이다.
Figure pct00013
이면, 고유 해가 있거나 해가 없다;
Figure pct00014
이고 Φ가 풀 랭크이면 고유 해가 존재한다;
Figure pct00015
이고 Φ가 풀 랭크가 아니라면 어떠한 고유 해도 존재하지 않는다;
Figure pct00016
이면 어떠한 고유 해도 존재하지 않는다.
K(제1 이미지에 대한 의사 이미지의 요소 가중치 수)가 M(제1 이미지 내의 컴포넌트 수)보다 크도록 선택되면, 시스템은 불충분결정되고 고전적인 선형 대수 방법을 이용하는 고유 해를 갖지 않는다. 그럼에도 불구하고, 저밀도성과 비음수성 제약으로 인해, 놀랍게도 시스템은 효과적인 이미지 인식을 달성한다.
개시된 방법에서, 미리결정된 변환 행렬의 생성 동안 생성된 의사 이미지들의 핵심 속성은 이들이 저밀도라는 것이다, 즉, 훈련 세트의 제1 이미지에 대한 주어진 의사 이미지에서 요소들의 작은 비율(예를 들어, 20% 이하, 10% 이하, 5% 이하, 또는 1% 이하)만이 활성임(즉, 0보다 상당히 큼, 예를 들어, 가장 큰 요소 가중치의 1% 이상, 5% 이상 또는 10% 초과)을 의미한다. 이 속성에 의해, Donoho (Chen, Donoho et al. 2001, Donoho and Elad 2003, Donoho 2006, Donoho, Tsaig et al. 2012)에 의해, 및 Candes and Tao (Candes and Tao 2005, Cand
Figure pct00017
s, Romberg et al. 2006, Candes, Romberg et al. 2006)에 의해 독립적으로 개발된 이론들은, 최소화 문제를 풀 때 저밀도성 제약을 부과함으로써 고유 해가 획득될 수 있다는 것을 보여준다. 저밀도성 측정은 위에서 논의된 바와 같이 상이한 형태들을 취할 수 있지만, 가장 흔하게 이용되는 저밀도성 정의는 L0 및 L1이다.
L 1 최소화(Donoho 2006)를 이용한 프로세스의 한 예는 다음을 푸는 것이다:
Figure pct00018
여기서 ε은 x
Figure pct00019
사이의 차이에 대한 오차 측정값이다.
L1 최소화 문제는, 예를 들어, 심플렉스 방법(simplex method)에 기초한, 볼록 최적화 절차에 의해 구현될 수 있다. 이들 기술은 다양한 서적 및 연구 출판물(Gill, Murray et al. 1991, Dantzig and Thapa 1997, Chen, Donoho et al. 2001, Boyd and Vandenberghe 2004, Candes and Tao 2005, Donoho 2006, Donoho, Tsaig et al. 2012)에서 찾을 수 있다.
특히, 본 명세서에서 개시된 방법은 벡터 a의 모든 계수(요소 가중치)가 비음수일 것을 요구하는 비음수 제약을 가지고 있다. 따라서, 문제는 다음과 같이 적절하게 쓸 수 있다 :
Figure pct00020
여기서 용어 a ≥ 0a의 모든 컴포넌트가 0이거나 양수임을 의미한다.
미리결정된 변환 행렬 Φ를 이용하여 벡터 a로 표현되는 의사 이미지를 획득하는데 이용될 수 있는 알고리즘의 대표적인 비제한적인 예는 Candes and Romberg, 2005의 "
Figure pct00021
" 기술이다. 아래의 예에서, Candes와 Romberg의 2차 제약을 갖는 Min-l1 접근법이, 다음과 같은 수정, 즉, 역을 구할 때 행렬이 양의 정부호(positive definite)일 것이 요구되지 않고 벡터 a의 계수 값이 양수일 것 ―이것은, 알고리즘의 끝에서 음의 계수를 0으로 설정함으로써 달성됨― 이 요구된다는 것과 함께 이용되었다. 알고리즘 1로부터의
Figure pct00022
값이 오류 측정값으로서 이용되었다.
이 예에서 이용된 알고리즘의 구조는 다음과 같다:
알고리즘 2:
Figure pct00023
모든 음수 컴포넌트를 0으로 설정하고
Figure pct00024
를 출력한다.
이 예에서 이용된 파라미터
Figure pct00025
의 값은 다음과 같다:
Figure pct00026
이 알고리즘의 목표는 제약
Figure pct00027
을 충족하는 벡터
Figure pct00028
의 저밀도성을 최소화하는 것이다. 이것은, 문제의 해를 구하는 동안 우리가 제약된 영역에 머물러야 한다는 것을 나타내는 최적화 문제이다. 이것은
Figure pct00029
Figure pct00030
또는
Figure pct00031
을 충족할 필요가 있다는 것을 의미한다. 그러나, 목표가 저밀도성이기 때문에, 단지
Figure pct00032
을 충족하는 것이 최적화된 저밀도성을 갖는
Figure pct00033
에 도달했음을 나타내는 것은 아니라는 점에 유의한다. 오히려, 이중성 갭
Figure pct00034
이라고하는 파라미터가 미리결정된 값(아래 예에서는 0.001)보다 작을 때 최적화의 끝에 도달한다. 그러나, 이 알고리즘에서는 이중성 갭에 대한 직접적인 비교가 이루어지지 않는다. 대신에, 수렴 보장 역할을 하는 반복 수(I)가 이중성 갭 파라미터를 이용하여 계산되고, 그 다음 이들 많은 반복에 대해 알고리즘이 실행된다.
비용 함수
Figure pct00035
를 이용하여
Figure pct00036
를 원하는 해를 향해 이동시킬 수 있다. 적절한 비용 함수의 예는, 이 예에서 이용된 다음과 같은 함수이다 :
Figure pct00037
이 비용 함수를 최소화하고 그에 따라
Figure pct00038
를 충족하고 저밀도인 원하는 벡터
Figure pct00039
를 찾으려면, 다음과 같은 단계들이 이용될 수 있다 :
(1) 이중성 갭 파라미터를 이용하여 비용 함수를 최소화하는데 요구되는 단계 수를 계산한다;
(2) 실행가능한 시작점 a0, 즉,
Figure pct00040
제약을 충족하는 시작점을 선택한다(이 예에서는 이용되지 않지만, 원한다면, a0은 실행가능한 영역에서 랜덤 시작점일 수 있다는 점에 유의한다).
(3) 시작점으로부터 비용 함수의 최소값에 도달하려면, 함수의 값이 시작점에서의 값보다 작은 방향으로 이동할 필요가 있다; 그 방향을 찾기 위해, 시작점에서의 비용 함수는 포물선(2차 근사)으로 근사화된다;
(4) 포물선의 최소값은 분석적으로 발견되고 a0은 실행가능한 영역에 머무르면서 그 방향으로 최대로 이동된다;
(5) 단계 (4)를 수행할 때, 비용 함수에서의 감소가, 시작점에서의 비용 함수의 선형 모델에 의해 예측된 감소의 미리선택된 백분율, 예를 들어, 1.0% 내에 있는지를 결정하기 위해 체크된다;
(6) 감소가 미리선택된 백분율 내에 있지 않다면, 비용 함수에서의 감소가 미리선택된 백분율 범위 내에 올 때까지 단계 크기가 감소된다;
(7) 그 다음, 단계 (4)로부터 나오는 새로운 점이 시작점으로서 이용되며, 비용 함수의 기울기가 미리선택된 레벨, 예를 들어, 이 예에서는 0.001 아래가 될 때까지 단계들 (3) 내지 (6)이 반복된다;
(8) 일단 기울기가 미리선택된 레벨 아래로 떨어지고 나면, τi의 값이 변경되고, 예를 들어, 10으로 곱해지고, 단계들 (3) 내지 (7)이 반복된다.
포물선의 최소값에 도달하려면 하나보다 많은 단계가 필요할 수 있다는 점에 유의한다. 이 예에서는 최대 50개의 단계가 이용되었다, 즉, 50 단계 이전에 포물선의 최소값에 도달했거나, 50 단계에 도달한 지점이 최소값으로 취해졌다.
알고리즘 2에 대한 상기의 구조는 "for 루프"를 이용했다; 다음 구조는 파라미터
Figure pct00041
의 값이 상기와 동일한 "while 루프"를 이용한다. a를 획득하기 위한 상기 절차를 프로그래밍하기 위한 수많은 다른 접근법뿐만 아니라,
Figure pct00042
방정식을 충족하는 저밀도, 비음수 벡터를 찾기 위한 다른 절차들이 본 개시내용으로부터 본 기술분야의 통상의 기술자에게 명백할 것이다.
Figure pct00043
모든 음수 컴포넌트를 0으로 설정하고
Figure pct00044
를 출력한다.
전형적인 경우, 제1 이미지는 그 픽셀들이 많은 값을 갖는 그레이스케일 이미지이다. 일부 경우에, 제1 이미지는 그 픽셀들이 2개의 가능한 값 중 하나(예를 들어, 온 또는 오프)만을 가질 수 있는 2진 이미지일 수 있다. 이 경우, K는 M보다 작도록 선택되어, 상기 선형 대수 텍스트북(Gill, Murray et al. 1991, Strang 2006)에서 논의된 바와 같이, 고유 해가 존재하게 된다. K가 M보다 작은 2진 이미지에 적용하면, 상기의 기술은 고유 해를 찾는다. 그러나, 저밀도성이 적용되지만, 고유 해는 특별히 저밀도이지 않은 것으로 밝혀졌다. 심볼의 제1 이미지는 전형적으로 고유 해가 가능한 이 범주에 속한다.
개시된 방법은 압축된 감지 및 저밀도 신호 복구(Donoho 2006, Elad 2010, Eldar 및 Kutyniok 2012)에 이용되는 방법과는 상이한데, 그 이유는, 이들 방법에서는, 목표는 원래 신호를 기준으로 재구성하거나 근사화하는 것이기 때문이라는 점에 유의한다. 개시된 방법에서, 생성된 의사 이미지는 원본 이미지와 유사하지 않고 상이한 차원에서 생성된다. 저밀도, 비음수 변환을 이용하면, 제1 이미지의 변형으로부터 생성된 의사 이미지뿐만 아니라, 손상되거나 폐색된 제1 이미지는, 예에서 도시된 바와 같이, 위장되지 않은 제1 이미지의 의사 이미지와 거의 동일할 수 있다.
도 42 내지 도 44는 본 개시내용의 실시에 이용될 수 있는 대표적인 플로차트를 개시한다. 이들 플로차트뿐만 아니라 이하에서 논의되는 도 45 내지 도 46의 것들은, 단지 개시내용의 실시예를 예시하기 위한 목적으로 제공되고, 어떤 방식으로든 청구항들에 의해 정의된 본 발명의 범위를 제한하려는 의도는 아니다.
도 42는 제1 이미지를 의사 이미지로 변환하는데 이용하기 위한 미리결정된 변환 행렬을 구성하는데 이용될 수 있는 플로차트를 개시한다. 플로차트는 다음과 같은 단계들을 포함할 수 있다: (1) 얼굴 이미지 세트를 획득하고, 필요하다면, 얼굴 이미지를 명시된 차원 M = m 1 x m 2 의 제1 이미지로 전처리하는 단계, (2) 제1 이미지를 X 행렬로 구성하는 단계, 및 (3) 미리결정된 변환 행렬 Φ 및 훈련 세트에 대한 의사 이미지들의 행렬 A를 획득하기 위해 X 행렬의 저밀도, 비음수 분해를 수행하는 단계. 그 후, 원한다면, A의 열들은 의사 이미지 라이브러리로서 구성될 수 있다. 또한, 원한다면, 의사 이미지를 분류하기 위해, PCA, 계층적 클러스터링, 및/또는 지원 벡터 머신을 이용한 분석 등의 통계적 분석이 행렬 A에 관해 수행될 수 있다. 한 예로서, 이러한 유형의 기술을 이용하여, 인간의 얼굴은 남성 또는 여성 얼굴로서 분류될 수 있다.
도 43은, 이미지 인식, 구체적으로, 얼굴 인식을 수행하는데 이용될 수 있는 플로차트를 개시한다. 플로차트는 다음과 같은 단계들을 포함할 수 있다: (1) 관심대상의 얼굴 이미지(관심대상의 원본 이미지)를 획득하는 단계, (2) 필요하다면, 원본 이미지를 명시된 차원 M = m 1 x m 2 의 관심대상의 제1 이미지로 전처리하는 단계, (3) 미리결정된 변환 행렬을 이용하여 관심대상의 제1 이미지의 저밀도, 비음수 변환을 수행하여 관심대상의 의사 이미지를 생성하는 단계, (4) 관심대상의 의사 이미지를 적어도 하나의 의사 이미지 라이브러리와 비교하는 단계, 및 (5) 비교 결과들을 보고하는 단계.
도 44는 하나 이상의 의사 이미지 라이브러리를 준비하거나 증강하는데 이용될 수 있는 플로차트를 개시한다. 플로차트는 다음과 같은 단계들을 포함할 수 있다: (1) 하나 이상의 의사 이미지 라이브러리에 포함될 얼굴 이미지를 획득하는 단계, (2) 필요하다면, 얼굴 이미지를 명시된 차원 M = m 1 x m 2 의 제1 이미지로 전처리하는 단계, (3) 미리결정된 변환 행렬을 이용하여 관심대상의 제1 이미지의 저밀도, 비음수 변환을 수행하여 의사 이미지를 생성하는 단계, (4) 적어도 일부 인덱싱/식별 정보와 함께 의사 이미지를 하나 이상의 의사 이미지 라이브러리에 통합하는 단계.
위에서 논의된 도 42 내지 도 44 및 이하에서 논의되는 도 45 및 도 46의 플로차트에 또는 본 개시내용에 기초하여 개발된 기타의 플로차트에 개시된 단계들은, 행렬 계산에 매우 적합한 다양한 컴퓨터 장비 및 다양한 소프트웨어 프로그래밍 언어, 예를 들어 MATLAB 또는 OCTAVE를 이용하여 쉽게 구현될 수 있다. 본 개시내용의 실시에 이용될 수 있는 다른 프로그래밍 언어는, FORTRAN, C, C ++, PYTHON, PASCAL, BASIC 등을 포함하지만 이것으로 제한되는 것은 아니다. 원한다면 하나보다 많은 프로그래밍 언어가 본 개시내용의 실시에 이용될 수 있다.
계산의 출력은 전자 및/또는 하드 카피 형태일 수 있고, 표 및 그래픽 형태를 포함한, 다양한 포멧으로 디스플레이될 수 있다. 예를 들어, 그래프는, MATLAB 및 OCTAVE의 일부이거나 MICROSOFT의 EXCEL 프로그램, R 또는 기타 소프트웨어 팩키지의 일부인 상용 데이터 프리젠테이션 소프트웨어를 이용하여 준비될 수 있다.
본 개시내용을 구현하기 위한 프로그램은, 프로세스의 단계들을 수행하기 위해 컴퓨터 프로세서에 의해 실행될 수 있는 명령어가 저장된 비일시적인 컴퓨터 판독가능한 매체 상에서 사용자에게 제공될 수 있다. 이러한 매체의 비제한적인 예에는, 디스켓, CD, 플래시 드라이브 등이 포함된다. 프로그램은 또한, 인터넷을 통해 사용자에게 다운로드될 수 있다. 또한, 본 개시내용의 프로세스는, 예를 들어, "클라우드" 컴퓨팅을 통해 온라인으로 사용자에게 제공될 수 있다. 이 프로세스는, 개인용 컴퓨터, 워크스테이션, 메인 프레임, 수퍼컴퓨터 등을 포함한, 다양한 컴퓨팅 플랫폼에서 수행될 수 있다.
미리결정된 변환 행렬은, 현장에서 프로그래밍 가능한 컴퓨터 하드웨어를 포함한, 컴퓨터 하드웨어로서 구현될 수 있다. 예를 들어, 미리결정된 변환 행렬은, 컴퓨터 칩, 예를 들어, 마이크로칩에 직접 프로그래밍될 수 있으며, FPGA 등의 프로그래밍 가능한 디바이스의 이용을 통해 현장에서 변경될 수 있다. 일단 미리결정된 변환 행렬을 결정하는데 있어서 충분히 큰 훈련 세트가 이용되었다면, 대개는 어떠한 추가 학습도 필요하지 않으며 고정된 미리결정된 변환 행렬이 상이한 플랫폼들(상이한 머신들)에 걸쳐 이용될 수 있고 하드-구현된 디바이스, 예를 들어, 펌웨어로서 제공될 수 있다. 하드웨어 구현은 기존 이미지 인식 시스템에 특히 적합할 수 있다.
바로 위에서 언급된 바와 같이, 일단 위에서 논의된 방법에 의해 결정되고 나면, 미리결정된 변환 행렬은 일반적으로 추가 학습을 요구하지 않을 것이다. 그러나, 예를 들어 견고성 또는 정확성을 개선하기 위해 추가 학습이 필요한 경우, "증강된" 미리결정된 변환 행렬을 생성하기 위해 2개의 접근법이 이용될 수 있다. 2개의 접근법은 "de novo" 및 "순차" 접근법이라고 지칭될 것이다. 추가 학습으로 인한 증강된 미리결정된 변환 행렬은 이미지 인식을 수행할 때 기존의 미리결정된 변환 행렬과 동일한 방식으로 이용될 수 있기 때문에, "미리결정된 변환 행렬"이라는 용어는 기존(예를 들어, 원래의) 미리결정된 변환 행렬 및 추가 학습에 의해 생성된 증강된 미리결정된 변환 행렬 둘 다를 포함하는 것으로 이해될 것이다. 원한다면, de novo 접근법, 순차 접근법 또는 이들 접근법들의 조합을 이용하여 증강이 여러 번 수행될 수 있다는 것도 이해될 것이다.
추가 학습에 대한 de novo 접근법은, 원래의 미리결정된 변환 행렬을 생성하여 증강된 미리결정된 변환 행렬을 생성하기 위해 위에서 논의된 방법을 이용한다. 위에서 논의한 방법에 따라, 모든 훈련 이미지는, 제1 이미지의 M x N 차원 X 행렬을 형성한 다음, X 행렬을 훈련 세트의 제1 이미지에 대응하는 M x K 차원 미리결정된 변환 행렬(Φ 행렬) 및 의사 이미지의 K x N 차원 A 행렬로 분해함으로써 한 번에 활용된다.
de novo 접근법에 따라, 한 번에 훈련 세트의 모든 제1 이미지를 이용하는 이 프로세스는 반복되지만 더 큰(증강된) 훈련 세트, 즉, 더 많은 열이 있는 X 행렬이 이용된다. 구체적으로, M x (N + N') 차원 X 행렬이 형성되며, 여기서 N'는 새로이-통합된 이미지의 수(N' ≥ 1)이다. 그 다음, 이 행렬은 M x K 차원의 미리결정된 변환 행렬(증강된 Φ 행렬)과 증강된 훈련 세트의 제1 이미지에 대응하는 의사 이미지의 K x N + N' 차원 A 행렬로 분해된다. 이 프로세스는 비음수 난수(위의 알고리즘 1 참조)를 이용한 A 행렬(및 Φ 행렬)의 초기 시딩을 포함하기 때문에, 그 결과로 생성되는 증강된 미리결정된 변환 행렬은, 일반적으로, 기존(이전) 변환 행렬과는 충분히 상이하여 이전 행렬로 생성된 의사 이미지 라이브러리의 재계산을 요구할 것이다. 따라서, 이 접근법은, 시간 소모적일뿐만 아니라, 의사 이미지와 다른 데이터세트(예를 들어, 범죄 기록 등) 사이에 이전에 명시된 연관성을 방해할 수 있다.
제2 접근법(순차 접근법)에 따라, 이러한 재계산의 필요성은 상당히 감소되거나 완전히 제거될 수 있다. 이름이 암시하는 바와 같이, 순차 접근법은, de novo 접근법에서처럼 처음부터 시작할 필요없이 훈련 세트 내에 통합된 하나 이상의 새로운 제1 이미지에 기초하여 Φ 행렬과 A 행렬이 업데이트되는 순차 학습을 수행한다. 이 방법은 de novo 학습에 비해 더 효율적이라는 이점을 제공한다. 중요한 것은, 일반적으로, 신원에 영향을 주지 않고 훈련 세트에 대한 의사 이미지를 업데이트할 수 있다는 것이다.
기존의 미리결정된 변환 행렬을 증강하기 위해 de novo 또는 순차 접근법을 이용하기 전의 예비 단계로서, 새로운 제1 이미지 또는 새로운 제1 이미지 세트에 대한 의사 이미지를 생성할 수 있도록 그 행렬이 실제로 증강이 필요한지 여부를 결정하는 것이 대개 적절할 것이다. 도 45는 이러한 예비 조사를 수행하기 위한 예시적인 플로차트를 개시한다. 그 도면의 제1 박스에 도시된 바와 같이, 프로세스에 대한 입력은, 기존의 미리결정된 변환 행렬 Φ 0 과, 단일의 새로운 제1 이미지일 수 있는 새로운 제1 이미지 세트 Y이다. 아래에서 논의되는 바와 같이, 순차 접근법은 Φ 0 을 생성하는데 이용된 훈련 세트에 대응하는 기존 의사 이미지 세트 A 0 을 이용하기 때문에, de novo 접근법을 이용할 때는 이용되지 않지만, A 0 도 역시 도 45에서 입력으로서 도시되어 있다.
도 45(이 도면의 제2 박스)의 계산 단계에 도시된 바와 같이, Φ 0 Y를 이용하여, 위의 알고리즘 1과 유사한 절차를 이용하여 Y에 대한 의사 이미지 세트
Figure pct00045
가 계산되지만, AΦ 둘 다가 아니라, A에 대해서만 최소화가 수반된다. 따라서, λ와 I는, 도 45의 결정 박스(예/아니오 박스)에 ε이 이용되는 것처럼, 마찬가지로 알고리즘 1에서 이용된다. 결정 박스에 도시된 바와 같이, 오류 E 0 이 ε보다 작거나 같을 때, Φ 0 은 증강없이 계속 이용될 수 있다. 이 프로세스는 또한, 예를 들어 하나 이상의 의사 이미지 라이브러리를 증강하는데 이용될 수 있는, 하나 이상의 새로운 제1 이미지에 대한 의사 이미지
Figure pct00046
를 생성한다. 따라서, Φ는 증강되지 않지만,
Figure pct00047
의 계산을 통해 의사 이미지는 증강된다.
도 45의 계산 박스가 ε보다 큰 E 0 값을 생성하면, 프로세스는 도 46으로 진행한다. (원한다면, 도 46의 프로세스는, 도 45의 프로세스를 먼저 수행하지 않고 수행될 수 있으며; 마찬가지로, de novo 접근법은 도 45의 프로세스를 먼저 수행하지 않고 시작될 수 있다는 점에 유의한다) 도 46의 프로세스는, 미리결정된 변환 행렬 Φ 0 및 대응하는 의사 이미지 A 0 세트를 생성하기 위해 N개의 제1 이미지 세트가 이용되었다고 가정한다. 새로운 제1 이미지 또는 새로운 제1 이미지 세트 Y가 시스템에 통합될 때, 이 방법은 L1 최소화를 이용하여 다음과 같은 비용 함수를 최소화하는 새로운 미리결정된 변환 행렬 Φ(증강된 미리결정된 변환 행렬) 및 의사 이미지 A를 검색한다 :
Figure pct00048
이러한 최소화를 수행하기 위한 프로세스의 일반 개요는 도 46에 설명되어 있으며, 이 일반 개요와 함께 이용될 수 있는 알고리즘의 대표적인 비제한적인 예는 아래 알고리즘 3에 개시되어 있다. 본 개시내용으로부터 본 기술분야의 통상의 기술자에게 명백한 바와 같이, 원한다면 순차 프로세스를 수행하기 위한 다른 알고리즘 및 일반 개요가 이용될 수 있다.
알고리즘 3:
Figure pct00049
알고리즘 3에서 이용되는 I 및 λ의 값은 알고리즘 1과 관련하여 위에서 논의된 것과 동일한 방식으로 결정된다. 아래 알고리즘 1에서와 같이, 각각의 반복 i에서, 마지막 반복에 대한 A 값(A i-1)이 (A i)를 결정하기 위한 초기 값으로서 이용되고, 마찬가지로, 마지막 반복에 대한 Φ 값(Φ i-1)이 (Φ i)를 결정하기 위한 초기 값으로서 이용된다.
도 46의 프로세스와 알고리즘 3은, 기존의 의사 이미지 라이브러리 뿐만 아니라 훈련 세트의 이전 멤버에 대한 기존의 의사 이미지를 실질적으로 보존할 수 있다. 이것은 특히, 기존의 미리결정된 변환 행렬 Φ 0 이 견고할 때 그렇다. 알고리즘 3을 검토하면, Y를 제1 이미지의 원본 훈련 세트(X 행렬)와 연결하는 것이 아니라, YX의 프록시로서 Φ 0 A 0 과 연결된다는 것이 드러난다. 따라서 Φ 0 은 프로세스에서 적극적으로 이용되어, 증강된 미리결정된 변환 행렬과 그에 따라 그 증강된 행렬을 이용하여 생성된 의사 이미지의 내용에 영향을 미칠 수 있다. Φ 0 이 견고하면, 증강 프로세스에서 훈련 세트 내에 도입되는 새로운 제1 이미지를 포괄하기 위해 증강된 미리결정된 변환 행렬이 Φ 0 과는 과도하게 상이할 필요가 없다. 결과적으로, 원본의 미리결정된 변환 행렬(Φ 0 ) 및 증강된 미리결정된 변환 행렬에 의해 생성된 의사 이미지들은 과도하게 상이할 필요가 없으므로 기존의 의사 이미지와 기타의 데이터세트 사이의 이전에 명시된 연관성이 보존될 가능성이 높아진다.
도 47은 본 명세서에 개시된 방법을 이용하여 이미지 인식을 수행하기 위한 컴퓨터 시스템(200)의 컴포넌트들의 비제한적인 아키텍쳐를 개략적으로 나타낸다. 이 비제한적이고 예시적인 실시예에서, 시스템(200)은, 하나 이상의 컴퓨터 프로세서(201) 및 하나 이상의 컴퓨터 프로세서에 의해 이용될 때 제1 이미지를 의사 이미지로 변환한 다음, 그 의사 이미지를 의사 이미지 라이브러리와 비교하거나 및/또는 그 의사 이미지를 하나 이상의 의사 이미지 라이브러리에 통합하는 단계들을 수행할 수 있는 데이터 및 명령어가 저장된 하나 이상의 메모리(203)를 포함한다. 하나 이상의 컴퓨터 프로세서 및 하나 이상의 메모리는 또한, 원본 이미지를 제1 이미지로 변환하는데 이용될 수 있다. 동일한 또는 별개의 컴퓨터 시스템을 이용하여 제1 이미지들로부터 의사 이미지들로의 변환들을 수행하는데 이용할 하나 이상의 미리결정된 변환 행렬을 계산할 수 있다. 미리결정된 변환 행렬(205) 및 의사 이미지 라이브러리(207)는 도 47에 별개로 도시되어 있지만, 이들은 하나 이상의 메모리(203)의 일부일 수 있거나 하나 이상의 컴퓨터 프로세서(201)에 하드 코딩될 수 있다는 것을 이해할 것이다.
프로세서/메모리 유닛(209)에 추가하여, 컴퓨터 시스템(200)은 또한, I/O 인터페이스(213)를 통해 취득된 신호를 프로세서/메모리 유닛에 전송하는 I/O 디바이스(211)를 포함할 수 있다. 이들 I/O 디바이스는, 예를 들어, 원본 이미지, 제1 이미지, 의사 이미지 라이브러리, 및/또는 미리결정된 변환 행렬을 시스템의 메모리 내에 로드하는데 이용할 수 있다. 이 디바이스들은 또한, 운영자 명령을 시스템에 전송하는데에도 이용될 수 있다. 프로세서/메모리 유닛(209)에 의해 수행된 계산 결과, 예를 들어, 의사 이미지, 미리결정된 변환 행렬, 의사 이미지 라이브러리, 비교 보고서 등은, 출력/디스플레이 유닛(215)을 통해 출력되거나 및/또는 비일시적인 컴퓨터 판독가능한 스토리지 매체(217)에 저장될 수 있다.
어떠한 방식으로든 그 범위를 제한하려는 의도없이, 본 발명은 다음과 같은 제한적인 예들에 의해 추가로 예시된다.
예 1
이 예는, 얼굴 인식의 문제에 대한 본 명세서에 개시된 이미지 인식 기술의 적용을 예시한다.
도 1은 신원 확인이 요구되는 관심대상 사람의 원본 이미지를 도시한다. 관심대상 사람은 본 명세서에 개시된 얼굴 인식 기술을 적용할 때 종종 발생하는 것처럼 다른 사람들과의 군중 속에 있다. 도 2a는 제1 레벨 전처리의 초기(제1 라운드)를 도시하며, 여기서 도 1은 관심대상 사람의 얼굴만 강조하기 위해 잘렸다. 잘린 얼굴의 치수는 동일한 수의 수직 및 수평 픽셀을 가졌다; 구체적으로는, 잘린 이미지는 10,000 픽셀(100x100)을 가졌다. 자르기는 오픈 소스 소프트웨어 OPEN-CV를 이용하여 수행되었지만, GOOGLE VISION API 또는 CLANDMARK 등의 얼굴 검출 소프트웨어를 이용하여 수행될 수도 있다.
도 2b는 도 2a 이미지가 미리 명시된 차원(m 1 x m 2 = 25 x 25)으로 다운샘플링된 추가적인 제1 레벨 전처리를 도시한다. 이 예에서, 다운샘플링은 4 x 4 픽셀 하위영역에 관한 로컬 평균화에 의해 달성되었다. 이 다운샘플링은 도 2a의 100 x 100 픽셀을 도 2b의 25 x 25 픽셀로 감소시켰다. 픽셀의 그레이스케일 값은 0과 1 사이로 정규화되었다. 도 2b 이미지는 이 예의 경우 관심대상의 제1 이미지(단계(a)-제1 이미지) 였으므로, 이 예의 경우 M은 625였다.
자동화된 웹 기반 이미지 검색에서 2,000개 얼굴 이미지의 훈련 세트(N = 2,000)가 획득되어 도 2a로부터 도 2b를 획득하는데 이용된 것과 동일한 제1 레벨 전처리를 거쳤다. 도 3은 훈련 세트의 얼굴 이미지 5개를 도시한다.
2,000개 훈련 이미지의 전체 세트와 상기의 알고리즘 1을 이용하여 1,500개의 사전 요소로 구성된 Φ 행렬(즉, K = 1,500, Φ는 625 x 1,500 행렬), 즉, 미리결정된 변환 행렬이 획득되었다. 도 4는 이러한 방식으로 획득된 1,500개의 사전 요소 중 36개를 도시한다. 도 4에서, 사전 요소는 미리결정된 변환 행렬의 열이 아니라, 2차원 어레이로서 디스플레이된다.
위에서 논의된 바와 같이, 미리결정된 변환 행렬 Φ를 생성하는 프로세스는 훈련 세트 내의 모든 이미지에 대한 의사 이미지를 생성한다. 각각의 의사 이미지는 Φ의 열 수(사전 요소 수)와 동일한 수의 요소 가중치(컴포넌트)를 갖는다, 즉, 각각의 의사 이미지는 K개의 요소 가중치를 가지며, 이 예에서는 1,500개였다. 도 5는, 이러한 방식으로 생성된 2,000개의 의사 이미지 중 5개를 도시한다. 이 도면에서, 의사 이미지의 요소 가중치는, 컴퓨터 시스템에서 전형적인 형태인 숫자 값의 벡터가 아닌 2차원 그레이스케일 어레이로서 디스플레이된다. 볼 수 있는 바와 같이, 현실 세계의 물체(즉, 인간의 얼굴)는 제1 이미지에서는 인지될 수 있지만 의사 이미지에서는 인지되지 않는다.
도 6은 도 2b에 도시된 얼굴에 대응하는 의사 이미지의 활성 요소들을 도시하며, 여기서 활성 요소들은 0보다 상당히 큰 계수(요소 가중치)를 갖는 사전 요소이다. 이 도면의 의사 이미지는, 알고리즘 2, 및 그 사전 요소들 중 일부가 도 4에 도시되어 있는 미리결정된 변환 행렬을 이용하여 획득되었다.
의사 이미지의 상위 12개 사전 요소, 즉, 가장 큰 요소 가중치를 가진 12개의 사전 요소는, 1,500개의 사전 요소를 모두 도시하는 도 6의 하단 패널에 어두운 프레임으로 마킹되어 있다. 의사 이미지에 있는 각각의 요소의 그레이스케일은 그 요소의 계수 값을 나타낸다.
중요한 사전 요소의 계수(요소 가중치)에 대한 값을 포함한, 활성 요소의 대안적인 뷰가 도 7에 도시되어 있다. 각각의 요소의 계수 값은 그 요소에 대응하는 라인의 높이에 의해 표시된다.
도 2b 및 그에 따라 도 1에 도시된 얼굴의 식별은, 관심대상의 의사 이미지, 즉, 도 6의 의사 이미지와, 의사 이미지 라이브러리의 각각의 멤버 사이의 유사성 점수를 계산함으로써 수행되었다. 이 예의 목적을 위해, 의사 이미지 라이브러리는, 위에서 논의된 바와 같이, 미리결정된 변환 행렬 Φ가 생성되는 것과 동시에 생성된 훈련 세트에 대한 의사 이미지 세트였다. 따라서, 의사 이미지 라이브러리에 대한 S 값은 2,000이었다. cos(θ) 함수는 이 예뿐만 아니라 예 2-10에서 유사성 점수로서 이용되었다.
도 8은 도 5의 일부가 취해졌던 전체 의사 이미지 라이브러리와 도 6의 관심대상의 의사 이미지의 비교에 의해 관심대상의 제1 이미지 및 그에 따른 원본 이미지의 식별의 보고를 도시한다. 가장 높은 점수를 갖는 제1 이미지는 관심대상의 제1 이미지와 동일하다. 알 수 있는 바와 같이, 유사성 점수는 다음으로 높은 점수보다 상당히 높으므로, K/M이 2.4(K = 1,500, M = 625)인 이 시스템에 대한 식별의 견고성을 나타낸다. MATLAB의 RANK() 함수에 의해 결정된 X 행렬의 랭크는 625였으므로, 이 예의 경우 K/R 및 K/M 값은 둘 다 2.4였고, 그 각각은 견고성을 나타낸다. 이 예 1에 대한 K/M 및 K/R 값은 또한, 아래의 예 3 내지 예 6에 대한 K/M 및 K/R 값이었다.
예 2
이 예는, K/M 및 K/R 비율의 값을 감소시키는 것이 이미지 인식 절차의 견고성을 어떻게 손상시키는지를 나타낸다.
예 1에서와 동일한 절차 및 훈련 세트가, 1,500 대신 500으로 설정된 K 값과 함께 이용되었으므로, 의사 이미지 라이브러리는 여전히 2,000개의 의사 이미지를 갖지만, K가 상이하기 때문에 의사 이미지들은 상이했다. K/M 및 K/R 값은, X 행렬이 예 1에서와 동일하고 따라서 그 예에서와 같이 M 값과 동일한 R, 즉, 625를 갖기 때문에, 둘 다 0.8이었다. 이 예 2에 대한 K/M 및 K/R에 대한 0.8 값은 또한, 아래 예 7에 대한 K/M 및 K/R 값이었다.
도 9 내지 도 13은 결과를 도시한다. 예 1의 도 9와 도 4를 비교하면, K를 감소시키는 것은 사전 요소들을 변경한다는 것을 알 수 있다. 더 작은 K 값의 경우, 사전 요소들은 도 4의 것들보다 더 적은 피처를 포함하고 더 스케쳐(sketcher)했지만 여전히 얼굴과 유사하다.
예 1의 도 10 내지 도 12와 도 5 내지 도 7을 비교하면, K 값을 감소시키는 것은 더 많은 활성 요소를 생성하였음을 알 수 있고, 이것은 의사 이미지가 덜 저밀도임을 의미한다. 저밀도성의 감소는 의사 이미지 라이브러리와 관심대상의 의사 이미지의 비교에 영향을 미친다. 특히, 도 13에 도시된 바와 같이, 의사 이미지 라이브러리 내의 더 많은 얼굴이, 도 8의 몇 개에 비해 유사성 점수에서 중간 값을 가지고 있다. 동일한 정확한 얼굴이 식별되었지만, K 값을 감소시키는 것은, 정확한 얼굴에 대한 유사성 점수와 가장 가까운 것에 대한 유사성 점수 사이의 차이(대비)가 예 1보다 이 예에서 훨씬 작아지게 했다. 따라서, 견고성이 손상되었다.
이러한 견고성의 감소는, K가 1,500 일 때 다양한 유형의 불완전한 얼굴 이미지가 성공적으로 식별된 예 3-6, 및 K가 500으로 감소될 때 성공적인 식별이 달성되지 않아 K/M 및 K/R 비율을 예 3-6에 대한 1.0 초과로부터 예 7에 대한 1.0 미만으로 취한 예 7에 의해 아래에서 더 예시된다.
예 3
이 예는, 이 경우에는 안경이나 선글라스로 얼굴의 일부가 폐색된 사람들에 대해 얼굴 인식을 수행하는 본 기술의 능력을 나타낸다. 이 예의 경우 관심대상의 제1 이미지가 눈 주위에 안경 또는 선글라스를 포함함으로써 수정된 훈련 세트의 얼굴이라는 점을 제외하고는, 예 1과 동일한 절차, 훈련 세트 및 의사 이미지 라이브러리가 이용되었다. 훈련 세트의 얼굴은 동일하게 유지되었다; 신원 확인을 위한 관심대상의 제1 이미지만이 변경되었다.
도 14 및 도 15는 결과를 도시한다. 예 1 및 알고리즘 2의 미리결정된 변환 행렬 Φ를 이용하여 획득된 의사 이미지는 더 많은 활성 요소를 보여 주었다, 구체적으로는, 도 14 및 도 15의 경우, 가장 큰 요소 가중치의 0.3 퍼센트 임계값에 대한 원본 제1 이미지에 대해 각각 4.3% 및 2.6% 활성 요소와, 그에 대비하여, 원본 제1 이미지에 대해 이용된 임계값, 즉, 원본 제1 이미지에 대한 가장 큰 요소 가중치에 기초한 임계값을 이용하여 수정된(불완전한) 이미지에 대해 18.9% 및 19.1%.
그러나, 추가 요소에 대한 계수 값은 비교적 작았다, 즉, 도 14 및 도 15의 중간 열에서 실질적으로 볼수 없었다. 따라서, 불완전한 제1 이미지에 대한 의사 이미지의 저밀도성은 손상되었지만, 여전히 상당한 저밀도성이 있었다. 중요한 것은, 이들 중간 열에서 볼 수 있는 바와 같이, 수정된 얼굴 이미지와 원본 이미지 사이에서, 주요 높은 요소 가중치(높은 계수 값) 사전 요소들이 동일하다는 것이다.
도 14 및 도 15의 우측 열에 도시된 바와 같이, 유사성 점수는 분석에 이용된 관심대상의 제1 이미지가 안경을 착용하고 있음에도 불구하고 원본 얼굴이 정확한 얼굴임을 명확하게 식별한다.
예 4
이 예는 훈련 세트에 없는 얼굴 표정을 가진 사람들에 대해 얼굴 인식을 수행하는 본 기술의 능력을 나타낸다. 예 1에서와 동일한 절차, 훈련 세트 및 의사 이미지 라이브러리가 이용되었다. 훈련 세트에서의 얼굴은, 웃는 것으로부터 웃지 않는 것으로(도 16의 상단 패널) 또는 웃지 않는 것으로부터 웃는 것으로(도 16의 하단 패널) 변경함으로써 수정되었다. 그 다음, 수정된 얼굴은 관심대상의 제1 이미지로서 이용되었고, 훈련 세트 내의 이미지는 변경되지 않았다, 즉, 미리결정된 변환 행렬 Φ 및 비교에 이용된 의사 이미지 라이브러리는 변경되지 않았다.
도 16의 우측 열은 상이한 표정들을 가진 얼굴과 라이브러리의 의사 이미지 사이의 유사성 점수를 도시한다. 가장 높은 점수는 원본 얼굴을 정확하게 식별했다.
예 5
이 예는, 얼굴의 여러 부분이, 이 경우 선글라스, 수염 또는 둘 다에 의해 가려진 사람들에 대해 얼굴 인식을 수행하는 본 기술의 능력을 나타낸다. 예 1에서와 동일한 절차, 훈련 세트 및 의사 이미지 라이브러리가 이용되었다. 이 예의 경우, 관심대상의 제1 이미지는, 눈 주위에 선글라스, 입 위의 콧수염, 또는 둘 다를 포함함으로써 수정된 훈련 세트로부터의 얼굴이다. 훈련 세트의 얼굴은 동일하게 유지되었다; 신원 확인을 위한 관심대상의 제1 이미지만이 변경되었다.
도 17은 결과를 도시한다. 수정된 얼굴과 훈련 세트에 대한 의사 이미지 라이브러리 사이의 가장 큰 유사성 점수는, 분석에 이용된 관심대상의 제1 이미지가 눈 주위에 선글라스 착용, 입 위에 콧수염, 또는 둘 다를 착용했다는 사실에도 불구하고 원본 얼굴이다.
예 6
이 예는, 실제로 모자, 스카프, 마스크 등일 수 있는 물체에 의해 얼굴의 일부가 가려진 사람들에 대해 얼굴 인식을 수행하는 본 기술의 능력을 나타낸다. 예 1에서와 동일한 절차, 훈련 세트 및 의사 이미지 라이브러리가 이용되었다. 이 예의 경우, 관심대상의 제1 이미지는 얼굴의 절반이 보이지 않게 제거된 검정 마스크로 가려진 훈련 세트로부터의 얼굴이었다. 마스크는 얼굴의 상이한 부분들(즉, 상단, 하단, 좌측 또는 우측 절반)을 가리기 위해 배치되었다. 도 18과 도 19는 훈련 세트에 대한 가려진 얼굴과 의사 이미지 라이브러리 사이의 유사성 점수를 도시한다. 두 경우(도 18의 왼손 사례들)에서, 정확한 얼굴은 가장 높은 점수를 갖는 얼굴은 아니지만 높은 유사성 점수를 갖는 얼굴들 중 하나였다; 다른 6개의 경우(도 18의 오른손 사례 및 도 19의 모든 사례)에서는, 원본 얼굴이 가장 높은 점수를 갖는 얼굴이었다.
예 7
이 예는, 예 3 내지 예 6에서 이용된 K 값 1,500을 500으로 감소시킨 효과를 도시한다. 위에서 언급된 바와 같이, K에서 감소와 함께, 이 예에 대한 K/M 및 K/R 값은 0.8이었다.
구체적으로, 도 20 및 도 21은 예 3의 도 14 및 15에 대응하고, 도 22는 예 4의 도 16에 대응하고, 도 23은 예 5의 도 17에 대응하며, 도 24 및 도 25는 예 6의 도 18 및 도 19에 대응한다. 이 예의 경우 K가 1,500 대신 500이므로, 의사 이미지 라이브러리는 여전히 2,000개의 의사 이미지를 갖지만, K가 상이하기 때문에 의사 이미지들은 상이했다는 점을 제외하고는, 예 1에서와 동일한 절차 및 훈련 세트가 이용되었다.
도 20 내지 도 25에서 볼 수 있는 바와 같이, 각각의 경우에 잘못된 얼굴이 식별되어 K/M 및 K/R 값이 1.0 미만일 때 불완전한 이미지를 식별하는데 있어서 견고성이 부족함을 보여준다.
예 8
이 예는, K 값 및 그에 따라 K/M 및 K/R 값을 증가시킴으로써 불완전한 제1 이미지에 관해 수행된 이미지 인식에서 훨씬 더 견고성을 달성할 수 있는 능력을 나타낸다.
예 5 및 예 6의 여성 얼굴은, 1,500 대신 2,500과 동일한 K와 함께, 따라서, K/M 및 K/R 비율은 2.4가 아닌 각각 4.0과 함께 반복되었다. 도 26 및 도 27은 분석의 결과를 도시한다.
이들 도면에서 볼 수 있는 바와 같이, 정확한 얼굴에 대한 유사성 점수는 이제 가장 가까운 것보다 훨씬 크다, 즉, 유사성 점수들 사이의 대비가 더 크다. K는 1,500인 도 17 및 도 18에 비해, K가 2,500인 도 26과 도 27에 대한 정확한 얼굴은 이제 유사성 점수 측면에서 실질적으로 독립적이다. 또한, 예 6의 여성 얼굴의 경우, 이제는 가려진 얼굴 부분에 관계없이 정확한 얼굴이 식별된다. 여성 얼굴은 남성 얼굴보다 식별하기가 더 어려운 경향이 있으므로 이 예 및 예 6의 결과가 나타내는 바와 같이 견고한 식별을 위해 약간 더 큰 K/M 및/또는 K/R 값이 요구될 수 있다.
예 9
이 예는 훈련 세트에 없는 사람들에 대한 얼굴 인식을 수행하는 본 기술의 능력을 나타낸다.
이용된 이미지는, http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html에서 찾을 수 있는 Yale 얼굴 이미지 데이터베이스로부터 가져온 것이다. 구체적으로, 각자가 11개의 상이한 얼굴 표정이나 조명 조건을 갖는, 15명의 개인이 이용되었다. 도 28은 이용된 165개의 얼굴을 도시한다. 도 28에서의 각각의 행은, 상이한 얼굴 표정 또는 조명 조건을 가진 상이한 개인에 대한 것이며, 각각의 개인은 한 행에 걸쳐 도시되어 있다.
도 28에서의 각각의 얼굴 이미지는 관심대상의 제1 이미지로서 취급되었고 예 1에서와 동일한 절차 및 훈련 세트를 이용하여 관심대상의 의사 이미지로 변환되었지만, K는 1,500 대신 2,500이고 그에 따라 K/M 및 K/R 비율은 2.4 대신 4.0이 된다. 그 다음, 쌍으로서 취해진 결과적인 관심대상의 의사 이미지들 사이의 유사한 점수가 계산되었다.
도 29는 15명의 개인과 그들의 11개의 얼굴간의 쌍별 점수를 도시한다(총 27,225개 비교). 더 어두운 그레이스케일은 더 높은 유사성 점수를 나타낸다. 동일한 사람에 속하는 얼굴은 그룹화되고 축을 따라 숫자로 표시된다. 이 도면에서 대각선을 따른 그룹화는, 어떤 주어진 사람이 상이한 표정과 조명 조건에서도 자신의 얼굴 이미지들 사이의 높은 유사성 점수를 갖는다는 것을 도시한다. 반면에, 상이한 사람들의 의사 이미지들 사이의 유사성 점수는 낮다. 따라서, 그래프는 상이한 얼굴 표정과 조명 조건에도 불구하고, 동일한 사람에 속하는 얼굴들은 의사 이미지에서 매우 유사하지만 상이한 사람에 속하는 얼굴들은 유사하지 않음을 도시한다.
도 30은, 도 28의 Yale 데이터베이스로부터의 얼굴들에 대한 의사 이미지와 예 1의 훈련 세트의 얼굴들에 대한 의사 이미지 사이의 유사성 점수를 도시한다. 이들 2개 세트의 무관한 얼굴들에 대한 의사 이미지들 사이의 유사성 점수는 낮다.
따라서, 이 기술은 어떤 주어진 개인이 의사 이미지 라이브러리의 일부인지 여부를 결정할 수 있으며, 또한, 그 개인이 의사 이미지 생성에 이용된 미리결정된 변환 행렬을 생성하는데 이용되는 훈련 세트의 일부가 아닌 경우에도 상이한 얼굴 표정과 상이한 조명 조건을 가진 특정한 개인의 제1 이미지들을 그룹화할 수 있다.
예 10
이 예는 심볼 인식을 수행하는 본 기술의 능력을 나타낸다.
도 31은 세계 언어의 1,000개의 글자와 문자를 도시한다. 이들 1,000개의 심볼(즉, N = 1000)은, 800개의 사전 요소(즉, K = 800)를 갖는 미리결정된 변환 행렬 Φ를 생성하기 위한 훈련 세트로서 이용되었으며, 위장되거나 위장되지 않은채, 영어 대문자 "H"와 한자 "빙"에 대한 의사 이미지를 생성하는데 이용되었다.
테스트에 이용된 "H" 및 "빙" 문자뿐만 아니라 훈련 세트의 심볼들 각각은, 256개의 픽셀(즉, M = 256)을 가져, Φ 행렬에 대해 3.1의 K/M 비율을 제공한다. 따라서 미리결정된 변환 행렬은 각각의 심볼을 256차원 공간으로부터 800차원 공간으로 변환했다. 위의 예 1에서 언급된 MATLAB RANK() 함수를 이용하여 결정된 X 행렬의 랭크는 253이었으며 K/R 비율은 3.2였다. Φ를 계산하는 동안 생성된 A 행렬은, 위장된 형태로 및 위장되지 않은 형태로, "H" 글자와 "빙" 문자의 의사 이미지들과의 비교를 위한 의사 이미지 라이브러리(S = 1,000)로서 이용되었다. 이전 예에서와 같이, 알고리즘 1을 이용하여 Φ 행렬을 생성하고 알고리즘 2를 이용하여 제1 이미지를 의사 이미지로 변환했다.
도 32는 위장되지 않은 글자 "H"(상단 패널)와 위장되지 않은 "빙" 문자(하단 패널)에 대한 결과를 도시한다. 이 도면에 도시된 유사성 점수는, 관심대상의 의사 이미지의 요소 가중치 대 의사 이미지 라이브러리의 의사 이미지의 요소 가중치에 대한 cos(θ) 함수의 값이다. 알 수 있는 바와 같이, 각각의 경우에 정확한 글자/문자가 발견되었다. 영어 대문자 "H"의 경우 두번째로 높은 유사성 점수는, 도 31의 마지막 열의 세번째 행에서 나타나는 그리스 대문자 "eta"였다. 알 수 있는 바와 같이, 이 그리스 문자와 영어 문자의 차이는 미미하지만 본 명세서에서 개시된 이미지 인식 절차는 이들 2개의 문자를 구분할 수 있었다.
도 33은 손상된 제1 이미지, 구체적으로는, 픽셀들이 누락된 제1 이미지(픽셀 값이 0으로 설정됨)에 대한 결과를 도시한다. 다시 말하지만, 이 절차는 이미지의 손상에도 불구하고 정확한 글자/문자를 쉽게 식별했다.
위에서 언급한 바와 같이, 도 31의 심볼 등의 2진 이미지의 경우, 견고한 이미지 인식을 위한 K의 요건은 종종 완화될 수 있다. 이 효과는, 도 33을 반복하지만 K는 800 대신에 100인 도 34에 나와 있다. 따라서, 도 33의 K/M 비율 3.1과 K/R 비율 3.2 대신에, 도 34는 K/M 및 K/R 비율이 0.4에 불과했다.
도 34에서 볼 수 있는 바와 같이, 이 절차는 K 값이 낮은 경우에도 손상된 글자 "H"와 손상된 "빙" 문자를 식별할 수 있었다. 도 33에 비해, 상당한 유사성 점수를 가진 많은 수의 심볼에 의해 증명되는 바와 같이 견고성은 손상되었지만, 시스템은 여전히 정확한 심볼을 찾을 수 있을만큼 견고했다.
도 35는 K를 800으로부터 100으로 변경한 효과를 추가로 특성규정한다. 이 도면의 패널은, 관심대상의 제1 이미지 내의 픽셀 수의 함수로서 관심대상의 의사 이미지와 정확한 의사 이미지 사이의 오차, 특히 1-cos(θ) 값을 플롯팅한다. 구체적으로, 도 31의 1,000개 심볼 각각으로부터의 무작위 픽셀 세트가 관심대상의 제1 이미지로서 이용되었으며, 이들 관심대상의 제1 이미지가 관심대상의 의사 이미지로 변환된 다음, 이들 관심대상의 의사 이미지는 위장되지 않은 심볼에 대한 의사 이미지와 비교되었다. 무작위 세트 내의 픽셀 수는 수평 축을 따라 플롯팅되고 1-cos(θ) 값은 수직 축을 따라 플롯팅된다. 구체적으로, 데이터 포인트들은 1,000개 심볼에 대한 평균이고, 실선은 중앙값에 대한 것이며, 음영은 코사인 오차에 대한 분산에 대한 것이다. 상위 패널은 K = 800에 대한 것이고 하위 패널은 K = 100에 대한 것이다.
도 35의 하위 패널에서 볼 수 있는 바와 같이, K = 100인 경우에도 픽셀 수가 총 픽셀 수의 ~50%보다 클 때 정확한 식별 가능성은 ~80%보다 크다. K = 800의 경우, 견고성이 현저하게 양호하며, 관심대상의 제1 이미지에는 256개 픽셀 중 40개(15.6 %)만 존재하면서 중앙의 정확한 식별이 100%에 도달한다. 이 결과는, 의사 이미지, 특히 관심대상의 제1 이미지가 이미지 인식을 수행하기 위해 더 높은 차원의 공간으로 변환된 의사 이미지 이용의 예상치 못한 위력(예상치 못한 견고성)을 나타낸다.
예 11
이 예는 증강된 미리결정된 변환 행렬을 생성하기 위한 de novo 및 순차 접근법을 비교한다. 제1 이미지로서, 도 36의 1,000개의 글자와 문자를 이용했으며(N = 1,000), 그 각각은 2진 픽셀들의 16x16 어레이였다(M = 256). 이 예에서 이용된 K의 값은 1,000이므로 K/M 비율은 3.9이다.
M x K차원 미리결정된 변환 행렬은 2개의 방식으로 계산되었다. 첫째, 미리결정된 변환 행렬을 증강하기 위해 de novo 접근법을 이용할 때처럼, 도 36의 모든 글자와 문자가 한 번에 이용되었다. 알고리즘 1은 미리결정된 변환 행렬을 계산하는데 이용되었다.
둘째, 도 36의 글자와 문자는 순차 접근법의 극단적인 예로서 차례로 이용되었다. 마지막 계산의 미리결정된 변환 행렬을 다음 계산을 위한 기존의 미리결정된 변환 행렬로서 이용하면서, 첫번째 글자/문자에 대해 알고리즘 1이 이용되었고 그 후 알고리즘 3이 반복적으로 이용되었다(999 회).
2개의 접근법에 대한 결과적인 1,000개의 사전 요소가 도 37 및 도 38에 도시되어 있고, 여기서 도 37은 de novo 접근법에 대한 것이고 도 38은 순차 접근법에 대한 것이다. 시각적 검사는 2개의 접근법에 의해 계산된 미리결정된 변환 행렬의 사전 요소들 사이의 높은 수준의 유사성을 보여준다.
도 39는 도 37 및 도 38의 사전 요소들 사이의 유사성을 정량화한다. 구체적으로, 이 도면은 순차 학습과 de novo 학습으로부터 학습된 사전 요소들 사이의 코사인 유사성을 플롯팅한다. 히트맵(heatmap)은 2개의 학습 방법들 사이의 쌍별 유사성 점수를 나타낸다. 높은 점수(어두운 색상)는 높은 수준의 유사성을 나타낸다. 어두운 대각선은 거의 동일한 요소들을 나타낸다. 알 수 있는 바와 같이, 2개의 학습 접근법은 처음 ~850개 요소에 대해 거의 동일한 사전 요소 세트를 생성했다. 마지막 150개 정도는 더 상이했다. 이것은 처음 850개 요소가 모든 중요한 피처 조합을 캡처했을 가능성이 높고 마지막 150개 정도는 정확도만 향상시키고 견고성을 위해서는 요구되지 않기 때문이라고 믿어진다.
도 40 및 도 41은 순차 접근법을 이용하여 획득된 미리결정된 변환 행렬의 추가 특성을 나타낸다. 도 40은 미리결정된 변환 행렬의 사전 요소들의 256개 컴포넌트들 사이의 쌍별 상관 관계의 플롯이다. 상당한 비대각선 값의 존재는, 견고한 이미지 인식을 위해 바람직한 바와 같이, 사전 요소의 개개의 컴포넌트에 상당한 정보 콘텐츠가 있다는 것을 나타낸다. 도 41은 훈련 세트(도 36)에 대한 순차 접근법을 이용하여 생성된 의사 이미지 컴포넌트들 사이의 쌍별 상관 관계의 플롯이다. 상당한 비대각선 값의 결핍은, 견고한 이미지 인식을 위해 바람직한 바와 같이, 제1 이미지가 의사 이미지 공간으로 변환될 때 실질적으로 고유한 표현을 가진다는 것을 나타낸다.
산업상 이용가능성
위에서 논의된 바와 같이, 본 명세서에서 개시된 이미지 인식 기술 및 연관된 컴퓨터 시스템에 대한 주요 응용들 중 하나는 인간 얼굴 인식에 있다. 이 응용과 관련하여, 한 실시예에서, 본 명세서에서 개시된 얼굴 인식 기술은, 카메라 및 비디오 레코더 등의 이미지 캡처 디바이스로부터 캡처된 이미지, 및 관련 정보를 회수하기 위한 하나 이상의 데이터베이스를 이용하여 사람을 식별하는데 이용될 수 있다. 예를 들어, 보안 체크 지점의 환경에서, 체크 지점을 통과하여 걸어가는 사람은 얼굴 이미지로부터 직접 식별될 수 있다. 대안으로서, 본 명세서에 개시된 이미지 인식 기술은, 신체 이미지 또는 그 사람의 보행 구조를 포착하는 이미지 시퀀스로부터 사람을 식별하는데 이용될 수 있다. 추가 대안으로서, 얼굴 이미지 데이터, 신체 이미지 데이터, 및 보행 데이터 중 2개 이상의 조합을 이용하여 사람을 식별할 수 있다.
이들 유형의 구현에서, 개인 식별 정보를 생성해야 할 필요없이 개인을 식별할 수 있다. 이러한 구현은 다른 형태의 식별에 대한 필요성을 감소시킬 것이다. 형사-사법 시스템의 경우, 얼굴 이미지, 신체 이미지 및/또는 보행 이미지는 기존 범죄 데이터베이스와 함께 이용되어 범죄의 가해자를 식별하거나 알려진 범죄자가 특정한 시간에 특정한 위치에 있었는지를 결정할 수 있다. 소비자 식별의 경우, 매장에 다시 찾아온 고객이 인식되어 판매원이 고객의 구매 이력에 기초하여 상품을 추천하는 것을 허용할 수 있다. 전자 상거래 환경에서, 개시된 기술은, 얼굴 이미지, 신체 이미지, 보행 이미지 또는 이들의 조합을 식별로서 이용하는 것을 허용함으로써, 다른 형태의 식별에 대한 필요성을 제거할 수 있다. 어떤 사람의 신원을 알고 있으면, 그 사람의 신용 또는 직불 계정에 직접 청구될 수 있으므로, 현금이나 신용 또는 직불 카드의 필요성을 제거한다.
얼굴 인식에 추가하여, 개시된 기술은 다른 형태의 촬영에 이용될 수 있다. 예를 들어, 동물 또는 기타 살아있는 물체(예를 들어, 식물, 세포, 기관, 조직 또는 바이러스)의 이미지가 얼굴 이미지와 동일한 방식으로 처리되어 알려진 의사 이미지의 라이브러리(데이터베이스)와 비교될 수 있는 의사 이미지를 생성할 수 있다. 분석되는 이미지는, MRI, fMRI, X-ray, CT 및 유사한 디바이스 등의 의료 촬영 디바이스에 의해 생성될 수 있다. 현미경에 의해 생성된 이미지, 예를 들어, 혈액 및 조직 샘플의 이미지는, 원본 이미지로서 뿐만 아니라, 시퀀스 형태(예를 들어, 유전자 서열) 또는 트레이스 형태(예를 들어, EKG 및 EEG)의 이미지로서도 이용될 수 있다. 관심대상의 의사 이미지를 의사 이미지 라이브러리와 비교한 결과는, 예를 들어, 질병 진단의 일부로서 및/또는 의료 절차에서 이용될 수 있다.
본 명세서에 개시된 기술의 다른 응용은, 생체 인식 목적을 위해, 개인의 서명, 망막, 지문 또는 다른 생체 인식을 별개로 또는 조합하여 이용하는 것을 포함한다. 객체 집합(예를 들어, 아티스트에 의해 생성된 콜라주)은 얼굴 이미지와 동일한 방식으로 취급될 수 있다. 실제로, 의사 이미지는, 예술가의 작품을 인증하거나, 특정한 제조업체가 생산했다고 주장하는, 예를 들면 현대 또는 골동품 가구의, 물건의 진위를 확인하는데 이용될 수 있다.
개시된 방법은, 잠재적인 위협의 인식에 대한 높은 신뢰도를 제공하고 매우 가변적인 조건에서 우호적 및 적대적 시설을 구별하기 위해 군사 상황에 적용될 수 있다. 예를 들어, 이 방법은, 안개, 모래 폭풍, 연기, 황혼 또는 밤 등의 조건에서 위장되거나 부분적으로 은닉된 적 탱크를 식별하는데 적용될 수 있다.
개시된 방법은, 예를 들어, 인간의 눈에 직접 보이지 않는 패턴을 검출하는 센서를 통해 취득된 이미지를 이용한 원격 감지에 이용될 수 있다. 예를 들어, 소나 또는 적외선 스펙트럼 이미지를 이용하여, 예를 들어, 광물, 가스 또는 기름 침전물을 인식할 수 있다.
더 일반적으로, 개시된 이미지 인식 기술이 모든 형태의 머신 비전에서 이용될 수 있다는 것은 본 기술분야의 통상의 기술자에게 명백할 것이다. 예를 들어, 개시된 방법은, 자율 로봇 디바이스, 차량 또는 선박에서, 차량, 장애물, 교통 표지판 및 통행 조건을 식별하고, 중앙 의사 결정자(예를 들어, 컴퓨터)에게 존재하는 조건을 통보하기 위해 이미지 또는 이미지 시퀀스에 적용될 수 있다. 개시된 방법은, 기계, 전기 및 전자 제조에서 결함 부품을 식별하는데 이용할 수 있다. 예를 들어, 결함이 있는 전자 회로 대 손상없는 전자 회로에 대한 의사 이미지를 이용하여, 개시된 방법을 이용하여 결함있는 회로를 정확하고 신속하게 식별할 수 있다.
이 기술들은 정지 이미지에 이용될 수 있을 뿐만 아니라, 시퀀스에 캡처된 이미지들을 연결된 이미지로서 간주함으로써 이미지 시퀀스에서 사람, 동물, 물체 또는 패턴을 인식하는데 이용될 수 있다. 즉, 관심대상의 물체의 이미지 시퀀스를 연결하거나 새로운 이미지로 변환할 수 있으며, 그 새로운 이미지는 개시된 방법을 이용하여 변환 및 분석될 수 있다.
또한, 의사 이미지를 결합하여 새로운 제1 이미지를 구성한 다음 새로운 더 높은 레벨의 의사 이미지로 변환할 수도 있다. 이 다층 접근법은, 예를 들어, 본 명세서에서 개시된 이미지 인식 기술의 인공 지능 응용에 이용될 수 있다. 단지 한 예로서, 품질 관리 환경에서, 완성된 머신의 부품에 대한 의사 이미지들을 이용하여, 제조업체는 (i) 그 부품에 대한 의사 이미지들을 결합하여 제1 이미지화하고, (ii) 그 제1 이미지에 대한 의사 이미지를 획득하고, (iii) 그 의사 이미지를 실제의 완성된 머신의 의사 이미지와 비교하여 모든 부품이 존재하는지를 결정함으로써 특정한 완성된 머신 내에 모든 부품이 포함되었는지를 결정할 수 있다.
개시된 기술은, 학습을 용이화하고, 사람과 물체를 식별하고, 관련 정보를 회수하기 위해 검색 엔진과 연계하여 이용될 수 있다. 예를 들어, 검색 엔진을 이용하여 의사 이미지 라이브러리를 생성한 다음 이미지 캡처 디바이스로 캡처한 이미지와 비교할 수 있다. 검색 엔진은 쿼리의 대상인 사람이나 객체를 식별함으로써 쿼리에 응답할 수 있다. 하나의 시나리오에서, 사람은 식물의 이미지를 획득하고 그 이미지를 검색 엔진에 보낼 수 있으며, 검색 엔진은 적절하게 식별된 식물 및 연관된 정보를 반환한다. 또 다른 시나리오에서, 주체가 더 알고 싶어할 수 있는 사람의 이미지가 검색 엔진으로 전송되어 검색 엔진이 원하는 정보를 반환할 수 있다. 예를 들어, 소셜 환경에서, 회수된 정보는 그 사람과 이전에 만났을 때의 시간과 상황을 간단히 신속하게 상기시켜 줄 수 있다. 이들 응용 및 기타의 응용에서, 컴퓨터와 연관된 이미지 캡처 디바이스(예를 들어, 스마트 폰의 카메라 또는 안경에 통합된 카메라)에 의해 생성된 이미지는, 기존 데이터베이스(검색 엔진 공급자로부터의 데이터베이스 또는 디바이스에 저장된 개인 데이터베이스)를 실시간으로 검색하여 의사 이미지 비교 매체를 통해 원하는 정보를 회수하는데 이용될 수 있다.
본 개시내용의 피처
전술된 내용에 기초하여, 요약 및 전반적 설명에서 전술된 본 개시내용의 6가지 양태에 추가하여, 본 발명은 다음과 같은 피처들을 포함하지만 이것으로 제한되는 것은 아니다. 6가지 양태와 다음과 같은 피처들뿐만 아니라, 다양한 패러그래프 및 서브패러그래프들은, 임의의 및 모든 조합으로 이용될 수 있다.
피처 1. 방법으로서,
(a) 컴퓨터 시스템에서 이미지를 수신하는 단계;
(b) 상기 컴퓨터 시스템을 이용하여, 미리결정된 변환 행렬을 이용해 상기 이미지의 의사 이미지로의 저밀도, 비음수 변환을 수행하는 단계;
(c) 상기 컴퓨터 시스템을 이용하여, 상기 의사 이미지를 알려진 이미지들의 의사 이미지 라이브러리와 비교하는 단계; 및
(d) 상기 컴퓨터 시스템을 이용하여, 상기 의사 이미지와 상기 알려진 이미지들의 의사 이미지 라이브러리의 비교 결과들을 출력하는 단계
를 포함하고,
상기 이미지는 M개의 컴포넌트를 갖고, 상기 의사 이미지는 K개의 컴포넌트를 가지며, K는 M보다 크거나 같은, 방법.
피처 2: 방법으로서,
(a) 컴퓨터 시스템에서 이미지를 수신하는 단계;
(b) 상기 컴퓨터 시스템을 이용하여, 미리결정된 변환 행렬을 이용해 상기 이미지의 의사 이미지로의 저밀도, 비음수 변환을 수행하는 단계;
(c) 상기 컴퓨터 시스템을 이용하여, 상기 의사 이미지를 알려진 이미지들의 의사 이미지 라이브러리와 비교하는 단계; 및
(d) 상기 컴퓨터 시스템을 이용하여, 상기 의사 이미지와 상기 알려진 이미지들의 의사 이미지 라이브러리의 비교 결과들을 출력하는 단계
를 포함하고,
상기 이미지는 M개의 컴포넌트를 포함하고, M개의 컴포넌트 각각은 2개의 가능한 값 중 하나만을 갖는, 방법.
피처 3: 피처 1 또는 피처 2에 있어서, 상기 컴퓨터 시스템은 적어도 하나의 L2 노옴을 이용하여 저밀도, 비음수 변환을 수행하는, 방법.
피처 4: 피처 1, 피처 2, 또는 피처 3 중 어느 하나에 있어서, 상기 미리결정된 변환 행렬은, 컴퓨터 시스템을 이용하여 훈련 이미지 행렬의 저밀도, 비음수 분해를 수행하는 단계를 포함하는 방법에 의해 획득된 행렬인, 방법.
피처 5: 피처 4에 있어서, 상기 훈련 이미지 행렬은 M x N 행렬이고, N은 M보다 크거나 같은, 방법.
피처 6: 피처 4 또는 피처 5에 있어서, 상기 컴퓨터 시스템은 적어도 하나의 Frobenius 노옴을 이용하여 저밀도, 비음수 분해를 수행하는, 방법.
피처 7: 피처 1 내지 피처 6 중 어느 하나에 있어서, 상기 단계 (a)의 이미지는 전처리된 이미지인, 방법.
피처 8: 피처 1 내지 피처 7 중 어느 하나에 있어서, 상기 컴퓨터 시스템은 Euclidean 거리와 코사인 거리 중 적어도 하나를 이용하여 상기 단계 (c)의 비교를 수행하는, 방법.
피처 9: 피처 1, 3, 4, 5, 6, 7, 8, 또는 9 중 어느 하나에 있어서, 상기 단계 (a)의 이미지는 인간 얼굴을 포함하는, 방법.
피처 10: 컴퓨터-구현된 이미지 인식을 수행하는 방법으로서,
(a) M개의 컴포넌트를 갖는 제1 이미지를 하나 이상의 컴퓨터 프로세서에 제공하는 단계;
(b) 미리결정된 변환 행렬을 상기 하나 이상의 컴퓨터 프로세서에 제공하는 단계, -
(i) 상기 미리결정된 변환 행렬은, K개의 열이 K개 사전 요소의 세트를 구성하는 M x K 행렬이고,
(ii) 상기 미리결정된 변환 행렬은, N개의 열이 N개 훈련 이미지의 세트를 구성하는 M x N 행렬의 저밀도, 비음수 분해를 수행하는 단계를 포함하는 방법에 의해 구성되고, 각각의 훈련 이미지는 M개의 컴포넌트를 갖고, 상기 저밀도, 비음수 분해는 적어도 하나의 Frobenius 노옴을 이용함 -;
(c) 상기 하나 이상의 컴퓨터 프로세서를 이용하여, 상기 제1 이미지의 저밀도, 비음수 변환을 수행하기 위한 상기 미리결정된 변환 행렬을 이용해 상기 제1 이미지에 대한 의사 이미지를 구성하는 단계, ―상기 제1 이미지에 대한 상기 의사 이미지는 K개의 요소 가중치로 구성되며, 각각의 요소 가중치는 상기 K개 사전 요소 중 하나에 대한 것이고, 상기 저밀도, 비음수 변환은 적어도 하나의 L2 노옴을 이용함―;
(d) 상기 하나 이상의 컴퓨터 프로세서를 이용하여, Euclidean 거리 및 코사인 거리 중 적어도 하나를 이용하여 상기 제1 이미지에 대한 상기 의사 이미지를 알려진 이미지들의 의사 이미지 라이브러리와 비교하는 단계; 및
(e) 상기 하나 이상의 컴퓨터 프로세서를 이용하여, 상기 의사 이미지와 상기 알려진 이미지들의 의사 이미지 라이브러리의 비교 결과들을 출력하는 단계
를 포함하고,
M x N 행렬은 랭크 R을 가지며 K는 다음과 같은 관계들 :
(i) K는 M보다 크거나 같다; 및
(ii) K는 R보다 크거나 같다
중 하나 또는 둘 다를 충족하는, 방법.
피처 11: 이미지 인식에서 이용하기 위한 미리결정된 변환 행렬을 준비하는 방법으로서,
(a) N개 훈련 이미지의 세트를 컴퓨터 시스템에 제공하는 단계 ―각각의 훈련 이미지는 M개의 컴포넌트를 가짐―;
(b) 상기 컴퓨터 시스템을 이용하여, M x N 행렬 ―상기 행렬의 N개 열 각각은 상기 훈련 이미지들 중 하나를 구성함― 의 저밀도, 비음수 분해를 수행함으로써 미리결정된 변환 행렬을 생성하는 단계, ―상기 저밀도, 비음수 분해는 적어도 하나의 Frobenius 노옴을 이용함― ; 및
(c) 상기 미리결정된 변환 행렬을 비일시적인 컴퓨터 판독가능한 매체에 저장하는 단계
를 포함하고,
(i) 상기 미리결정된 변환 행렬은 M x K 행렬이고;
(ii) 상기 M x N 행렬은 랭크 R을 가지며;
(iii) K는 다음과 같은 관계들 :
(A) K는 M 이상이다; 및
(B) K는 R보다 크거나 같다
중 하나 또는 둘 다를 충족하는, 방법.
피처 12: 피처 11에 있어서, 상기 N개 훈련 이미지에 대한 의사 이미지 세트가 단계 (b)에서 생성되고, 상기 방법은 상기 컴퓨터 시스템을 이용하여 이들 의사 이미지들 중 적어도 일부를 의사 이미지 라이브러리의 적어도 일부로서 비일시적인 컴퓨터 판독가능한 매체에 저장하는 단계를 더 포함하는, 방법.
피처 13: 피처 11에 있어서, 상기 미리결정된 변환 행렬을 상거래 물품으로서 배포하는 단계를 더 포함하는, 방법.
피처 14: 피처 1, 피처 10 또는 피처 11(또는 그에 의존하는 임의의 피처)에 있어서, K는 M보다 큰, 방법.
피처 15: 선행의 미리결정된 변환 행렬로부터 이미지 인식에 이용하기 위한 미리결정된 변환 행렬을 준비하기 위한 방법으로서,
(a) N개 훈련 이미지의 세트를 이용하여 획득된 선행의 미리결정된 변환 행렬 Φ 0 를 컴퓨터 시스템에 제공하는 단계;
(b) 상기 N개 훈련 이미지에 대한 의사 이미지 세트 A 0 을 상기 컴퓨터 시스템에 제공하는 단계;
(c) N'개 훈련 이미지의 세트 Y를 컴퓨터 시스템에 제공하는 단계, ―N'는 1보다 크거나 같고 이 세트의 적어도 하나의 멤버는 상기 N개 훈련 이미지의 세트의 일부가 아닌 훈련 이미지임―;
(d) 상기 컴퓨터 시스템을 이용하여 Y와 행렬 곱 Φ 0 A 0의 연결을 이용해 미리결정된 변환 행렬을 생성하는 단계, ―Φ 0 A 0 행렬 곱은 N개 훈련 이미지의 세트에 대한 프록시로서 역할함―; 및
(e) 상기 단계 (d)의 상기 미리결정된 변환 행렬을 비일시적인 컴퓨터 판독가능한 매체에 저장하는 단계
를 포함하는, 방법.
피처 16: 피처 15에 있어서, 상기 N'개 훈련 이미지에 대한 의사 이미지 세트가 상기 단계 (d)에서 생성되고, 상기 방법은 상기 컴퓨터 시스템을 이용하여 이들 의사 이미지들 중 적어도 일부를 의사 이미지 라이브러리의 적어도 일부로서 비일시적인 컴퓨터 판독가능한 매체에 저장하는 단계를 더 포함하는, 방법.
피처 17: 피처 15에 있어서, 상기 단계 (d)의 상기 미리결정된 변환 행렬을 상거래 물품으로서 배포하는 단계를 더 포함하는, 방법.
피처 18: 이미지 인식에 이용하기 위해 의사 이미지 라이브러리를 준비하거나 증강하는 방법으로서,
(a) 알려진 이미지들의 세트를 컴퓨터 시스템에 제공하는 단계;
(b) 상기 컴퓨터 시스템을 이용하여, 미리결정된 변환 행렬을 이용해 상기 알려진 이미지들의 의사 이미지들로의 저밀도, 비음수 변환들을 수행하는 단계; 및
(c) 상기 컴퓨터 시스템을 이용하여, 상기 의사 이미지들의 적어도 일부를 의사 이미지 라이브러리의 적어도 일부로서 비일시적인 컴퓨터 판독가능한 매체에 저장하는 단계
를 포함하는, 방법.
피처 19: 피처 12, 피처 16, 또는 피처 18 중 어느 하나에 있어서, 상기 의사 이미지 라이브러리를 상거래 물품으로서 배포하는 단계를 더 포함하는, 방법.
피처 20: 비일시적인 컴퓨터 판독가능한 매체로서, 피처 11 또는 피처 15의 방법에 의해 준비된 미리결정된 변환 행렬이 저장된, 비일시적인 컴퓨터 판독가능한 매체.
피처 21: 비일시적인 컴퓨터 판독가능한 매체로서, 피처 12, 피처 16 또는 피처 18 중 어느 하나의 방법에 의해 적어도 부분적으로 준비된 의사 이미지 라이브러리가 저장된, 비일시적인 컴퓨터 판독가능한 매체.
피처 22: 비일시적인 컴퓨터 판독가능한 매체로서, 알려지지 않은 이미지에 대한 의사 이미지와의 비교를 위한 알려진 이미지들의 의사 이미지 라이브러리를 포함하는 비일시적인 컴퓨터 판독가능한 매체로서, 상기 알려진 이미지들의 의사 이미지들은, 미리결정된 변환 행렬을 이용해 상기 알려진 이미지들의 의사 이미지들로의 저밀도, 비음수 변환들을 수행하는 단계를 포함하는 방법에 의해 획득되는, 비일시적인 컴퓨터 판독가능한 매체.
피처 23: 컴퓨터 프로세서에 의해 실행되어 단계들을 수행할 수 있는 명령어들이 저장된 비일시적인 컴퓨터 판독가능한 매체로서, 상기 단계들은 :
(a) 이미지를 의사 이미지로 변환하는 단계;
(b) 상기 의사 이미지를 알려진 이미지들의 의사 이미지 라이브러리와 비교하는 단계; 및
(c) 상기 의사 이미지와 상기 알려진 이미지들의 의사 이미지 라이브러리의 비교 결과들을 출력하는 단계
를 포함하고,
상기 단계 (a)의 변환은 미리결정된 변환 행렬을 이용한 저밀도, 비음수 변환인, 비일시적인 컴퓨터 판독가능한 매체.
피처 24: 컴퓨터 시스템으로서, 피처 23의 비일시적인 컴퓨터 판독가능한 매체 및 그 안에 저장된 명령어들을 실행하기 위한 컴퓨터 프로세서를 포함하는, 컴퓨터 시스템.
피처 25: 시스템으로서,
컴퓨터 프로세서;
적어도 하나의 컴퓨터 메모리(예를 들어, RAM);
적어도 하나의 컴퓨터 저장 디바이스(예를 들어, 하드 드라이브, 플래시 드라이브, 및/또는 클라우드);
이미지를 수신하고 상기 이미지를 상기 적어도 하나의 컴퓨터 메모리에 저장하는 컴퓨터 인터페이스; 및
상기 수신된 이미지에 대한 의사 이미지를 생성하고 상기 의사 이미지를 상기 적어도 하나의 컴퓨터 저장 디바이스에 저장하기 위해 상기 컴퓨터 프로세서에 의해 실행될 수 있는 컴퓨터 프로그램
을 포함하고,
상기 컴퓨터 프로그램은, 미리결정된 변환 행렬을 이용해 상기 이미지의 저밀도, 비음수 변환을 수행하는 단계를 포함하는 방법에 의해 상기 의사 이미지를 생성할 수 있는, 시스템.
피처 26: 피처 25에 있어서, 상기 컴퓨터 프로그램은 상기 의사 이미지를 의사 이미지 라이브러리와 비교하고 상기 비교의 결과를 출력할 수 있는, 시스템.
피처 27: 피처 25 또는 피처 26에 있어서, 상기 컴퓨터 프로그램은 상기 의사 이미지를 의사 이미지 라이브러리에 포함할 수 있는, 시스템.
피처 28: 피처 25, 피처 26, 또는 피처 27 중 어느 하나에 있어서, 상기 컴퓨터 인터페이스에 이미지를 제공할 수 있는 이미지 캡처 디바이스를 더 포함하는, 시스템.
전술된 개시내용으로부터 본 발명의 범위 및 사상을 벗어나지 않는 다양한 수정은 본 기술분야의 통상의 기술자에게 명백할 것이다. 이하의 청구항들은 본 명세서에서 설명된 특정한 실시예들뿐만 아니라 이들 실시예들의 수정, 변형 및 균등물을 포괄하도록 의도된 것이다.
[참조 문헌]
Figure pct00050
Figure pct00051

Claims (28)

  1. 방법으로서,
    (a) 컴퓨터 시스템에서 이미지를 수신하는 단계;
    (b) 상기 컴퓨터 시스템을 이용하여, 미리결정된 변환 행렬을 이용해 상기 이미지의 의사 이미지로의 저밀도, 비음수 변환을 수행하는 단계;
    (c) 상기 컴퓨터 시스템을 이용하여, 상기 의사 이미지를 알려진 이미지들의 의사 이미지 라이브러리와 비교하는 단계; 및
    (d) 상기 컴퓨터 시스템을 이용하여, 상기 의사 이미지와 상기 알려진 이미지들의 의사 이미지 라이브러리의 비교 결과들을 출력하는 단계
    를 포함하고,
    상기 이미지는 M개의 컴포넌트를 갖고, 상기 의사 이미지는 K개의 컴포넌트를 가지며, K는 M보다 크거나 같은, 방법.
  2. 방법으로서,
    (a) 컴퓨터 시스템에서 이미지를 수신하는 단계;
    (b) 상기 컴퓨터 시스템을 이용하여, 미리결정된 변환 행렬을 이용해 상기 이미지의 의사 이미지로의 저밀도, 비음수 변환을 수행하는 단계;
    (c) 상기 컴퓨터 시스템을 이용하여, 상기 의사 이미지를 알려진 이미지들의 의사 이미지 라이브러리와 비교하는 단계; 및
    (d) 상기 컴퓨터 시스템을 이용하여, 상기 의사 이미지와 상기 알려진 이미지들의 의사 이미지 라이브러리의 비교 결과들을 출력하는 단계
    를 포함하고,
    상기 이미지는 M개의 컴포넌트를 포함하고, M개의 컴포넌트 각각은 2개의 가능한 값 중 하나만을 갖는, 방법.
  3. 제1항 또는 제2항에 있어서, 상기 컴퓨터 시스템은 적어도 하나의 L2 노옴을 이용하여 저밀도, 비음수 변환을 수행하는, 방법.
  4. 제1항 또는 제2항에 있어서, 상기 미리결정된 변환 행렬은, 컴퓨터 시스템을 이용하여 훈련 이미지 행렬의 저밀도, 비음수 분해를 수행하는 단계를 포함하는 방법에 의해 획득된 행렬인, 방법.
  5. 제4항에 있어서, 상기 훈련 이미지 행렬은 M x N 행렬이고, N은 M보다 크거나 같은, 방법.
  6. 제4항에 있어서, 상기 컴퓨터 시스템은 적어도 하나의 Frobenius 노옴을 이용하여 저밀도, 비음수 분해를 수행하는, 방법.
  7. 제1항 또는 제2항에 있어서, 상기 단계 (a)의 이미지는 전처리된 이미지인, 방법.
  8. 제1항 또는 제2항에 있어서, 상기 컴퓨터 시스템은 Euclidean 거리와 코사인 거리 중 적어도 하나를 이용하여 상기 단계 (c)의 비교를 수행하는, 방법.
  9. 제1항에 있어서, 상기 단계 (a)의 이미지는 인간 얼굴을 포함하는, 방법.
  10. 컴퓨터-구현된 이미지 인식을 수행하는 방법으로서,
    (a) M개의 컴포넌트를 갖는 제1 이미지를 하나 이상의 컴퓨터 프로세서에 제공하는 단계;
    (b) 미리결정된 변환 행렬을 상기 하나 이상의 컴퓨터 프로세서에 제공하는 단계, -
    (i) 상기 미리결정된 변환 행렬은, K개의 열이 K개 사전 요소의 세트를 구성하는 M x K 행렬이고,
    (ii) 상기 미리결정된 변환 행렬은, N개의 열이 N개 훈련 이미지의 세트를 구성하는 M x N 행렬의 저밀도, 비음수 분해를 수행하는 단계를 포함하는 방법에 의해 구성되고, 각각의 훈련 이미지는 M개의 컴포넌트를 갖고, 상기 저밀도, 비음수 분해는 적어도 하나의 Frobenius 노옴을 이용함 -;
    (c) 상기 하나 이상의 컴퓨터 프로세서를 이용하여, 상기 제1 이미지의 저밀도, 비음수 변환을 수행하기 위한 상기 미리결정된 변환 행렬을 이용해 상기 제1 이미지에 대한 의사 이미지를 구성하는 단계, ―상기 제1 이미지에 대한 상기 의사 이미지는 K개의 요소 가중치로 구성되며, 각각의 요소 가중치는 상기 K개 사전 요소 중 하나에 대한 것이고, 상기 저밀도, 비음수 변환은 적어도 하나의 L2 노옴을 이용함―;
    (d) 상기 하나 이상의 컴퓨터 프로세서를 이용하여, Euclidean 거리 및 코사인 거리 중 적어도 하나를 이용하여 상기 제1 이미지에 대한 상기 의사 이미지를 알려진 이미지들의 의사 이미지 라이브러리와 비교하는 단계; 및
    (e) 상기 하나 이상의 컴퓨터 프로세서를 이용하여, 상기 의사 이미지와 상기 알려진 이미지들의 의사 이미지 라이브러리의 비교 결과들을 출력하는 단계
    를 포함하고,
    M x N 행렬은 랭크 R을 가지며 K는 다음과 같은 관계들 :
    (i) K는 M보다 크거나 같다; 및
    (ii) K는 R보다 크거나 같다
    중 하나 또는 둘 다를 충족하는, 방법.
  11. 이미지 인식에서 이용하기 위한 미리결정된 변환 행렬을 준비하는 방법으로서,
    (a) N개 훈련 이미지의 세트를 컴퓨터 시스템에 제공하는 단계 ―각각의 훈련 이미지는 M개의 컴포넌트를 가짐―;
    (b) 상기 컴퓨터 시스템을 이용하여, M x N 행렬 ―상기 행렬의 N개 열 각각은 상기 훈련 이미지들 중 하나를 구성함― 의 저밀도, 비음수 분해를 수행함으로써 미리결정된 변환 행렬을 생성하는 단계, ―상기 저밀도, 비음수 분해는 적어도 하나의 Frobenius 노옴을 이용함― ; 및
    (c) 상기 미리결정된 변환 행렬을 비일시적인 컴퓨터 판독가능한 매체에 저장하는 단계
    를 포함하고,
    (i) 상기 미리결정된 변환 행렬은 M x K 행렬이고;
    (ii) 상기 M x N 행렬은 랭크 R을 가지며;
    (iii) K는 다음과 같은 관계들 :
    (A) K는 M 이상이다; 및
    (B) K는 R보다 크거나 같다
    중 하나 또는 둘 다를 충족하는, 방법.
  12. 제11항에 있어서, 상기 N개 훈련 이미지에 대한 의사 이미지 세트가 단계 (b)에서 생성되고, 상기 방법은 상기 컴퓨터 시스템을 이용하여 이들 의사 이미지들 중 적어도 일부를 의사 이미지 라이브러리의 적어도 일부로서 비일시적인 컴퓨터 판독가능한 매체에 저장하는 단계를 더 포함하는, 방법.
  13. 제11항에 있어서, 상기 미리결정된 변환 행렬을 상거래 물품으로서 배포하는 단계를 더 포함하는, 방법.
  14. 제1항, 제10항 또는 제11항 중 어느 한 항에 있어서, K는 M보다 큰, 방법.
  15. 선행의 미리결정된 변환 행렬로부터 이미지 인식에 이용하기 위한 미리결정된 변환 행렬을 준비하기 위한 방법으로서,
    (a) N개 훈련 이미지의 세트를 이용하여 획득된 선행의 미리결정된 변환 행렬 Φ 0 를 컴퓨터 시스템에 제공하는 단계;
    (b) 상기 N개 훈련 이미지에 대한 의사 이미지 세트 A 0 을 상기 컴퓨터 시스템에 제공하는 단계;
    (c) N'개 훈련 이미지의 세트 Y를 컴퓨터 시스템에 제공하는 단계, ―N'는 1보다 크거나 같고 이 세트의 적어도 하나의 멤버는 상기 N개 훈련 이미지의 세트의 일부가 아닌 훈련 이미지임―;
    (d) 상기 컴퓨터 시스템을 이용하여 Y와 행렬 곱 Φ 0 A 0의 연결을 이용해 미리결정된 변환 행렬을 생성하는 단계, ―Φ 0 A 0 행렬 곱은 N개 훈련 이미지의 세트에 대한 프록시로서 역할함―; 및
    (e) 상기 단계 (d)의 상기 미리결정된 변환 행렬을 비일시적인 컴퓨터 판독가능한 매체에 저장하는 단계
    를 포함하는, 방법.
  16. 제15항에 있어서, 상기 N'개 훈련 이미지에 대한 의사 이미지 세트가 상기 단계 (d)에서 생성되고, 상기 방법은 상기 컴퓨터 시스템을 이용하여 이들 의사 이미지들 중 적어도 일부를 의사 이미지 라이브러리의 적어도 일부로서 비일시적인 컴퓨터 판독가능한 매체에 저장하는 단계를 더 포함하는, 방법.
  17. 제15항에 있어서, 상기 단계 (d)의 상기 미리결정된 변환 행렬을 상거래 물품으로서 배포하는 단계를 더 포함하는, 방법.
  18. 이미지 인식에 이용하기 위해 의사 이미지 라이브러리를 준비하거나 증강하는 방법으로서,
    (a) 알려진 이미지들의 세트를 컴퓨터 시스템에 제공하는 단계;
    (b) 상기 컴퓨터 시스템을 이용하여, 미리결정된 변환 행렬을 이용해 상기 알려진 이미지들의 의사 이미지들로의 저밀도, 비음수 변환들을 수행하는 단계; 및
    (c) 상기 컴퓨터 시스템을 이용하여, 상기 의사 이미지들의 적어도 일부를 의사 이미지 라이브러리의 적어도 일부로서 비일시적인 컴퓨터 판독가능한 매체에 저장하는 단계
    를 포함하는, 방법.
  19. 제12항, 제16항, 또는 제18항 중 어느 한 항에 있어서, 상기 의사 이미지 라이브러리를 상거래 물품으로서 배포하는 단계를 더 포함하는, 방법.
  20. 비일시적인 컴퓨터 판독가능한 매체로서,
    제11항 또는 제15항의 방법에 의해 준비된 미리결정된 변환 행렬이 저장된, 비일시적인 컴퓨터 판독가능한 매체.
  21. 비일시적인 컴퓨터 판독가능한 매체로서,
    제12항, 제16항, 또는 제18항 중 어느 한 항의 방법에 의해 적어도 부분적으로 준비된 의사 이미지 라이브러리가 저장된, 비일시적인 컴퓨터 판독가능한 매체.
  22. 비일시적인 컴퓨터 판독가능한 매체로서,
    알려지지 않은 이미지에 대한 의사 이미지와의 비교를 위한 알려진 이미지들의 의사 이미지 라이브러리를 포함하는 비일시적인 컴퓨터 판독가능한 매체로서, 상기 알려진 이미지들의 의사 이미지들은, 미리결정된 변환 행렬을 이용해 상기 알려진 이미지들의 의사 이미지들로의 저밀도, 비음수 변환들을 수행하는 단계를 포함하는 방법에 의해 획득되는, 비일시적인 컴퓨터 판독가능한 매체.
  23. 컴퓨터 프로세서에 의해 실행되어 단계들을 수행할 수 있는 명령어들이 저장된 비일시적인 컴퓨터 판독가능한 매체로서, 상기 단계들은 :
    (a) 이미지를 의사 이미지로 변환하는 단계;
    (b) 상기 의사 이미지를 알려진 이미지들의 의사 이미지 라이브러리와 비교하는 단계; 및
    (c) 상기 의사 이미지와 상기 알려진 이미지들의 의사 이미지 라이브러리의 비교 결과들을 출력하는 단계
    를 포함하고,
    상기 단계 (a)의 변환은 미리결정된 변환 행렬을 이용한 저밀도, 비음수 변환인, 비일시적인 컴퓨터 판독가능한 매체.
  24. 컴퓨터 시스템으로서,
    제23항의 비일시적인 컴퓨터 판독가능한 매체 및 그 안에 저장된 명령어들을 실행하기 위한 컴퓨터 프로세서를 포함하는, 컴퓨터 시스템.
  25. 시스템으로서,
    컴퓨터 프로세서;
    적어도 하나의 컴퓨터 메모리(예를 들어, RAM);
    적어도 하나의 컴퓨터 저장 디바이스(예를 들어, 하드 드라이브, 플래시 드라이브, 및/또는 클라우드);
    이미지를 수신하고 상기 이미지를 상기 적어도 하나의 컴퓨터 메모리에 저장하는 컴퓨터 인터페이스; 및
    상기 수신된 이미지에 대한 의사 이미지를 생성하고 상기 의사 이미지를 상기 적어도 하나의 컴퓨터 저장 디바이스에 저장하기 위해 상기 컴퓨터 프로세서에 의해 실행될 수 있는 컴퓨터 프로그램
    을 포함하고,
    상기 컴퓨터 프로그램은, 미리결정된 변환 행렬을 이용해 상기 이미지의 저밀도, 비음수 변환을 수행하는 단계를 포함하는 방법에 의해 상기 의사 이미지를 생성할 수 있는, 시스템.
  26. 제25항에 있어서, 상기 컴퓨터 프로그램은 상기 의사 이미지를 의사 이미지 라이브러리와 비교하고 상기 비교의 결과를 출력할 수 있는, 시스템.
  27. 제25항 또는 제26항에 있어서, 상기 컴퓨터 프로그램은 상기 의사 이미지를 의사 이미지 라이브러리에 포함할 수 있는, 시스템.
  28. 제25항에 있어서, 상기 컴퓨터 인터페이스에 이미지를 제공할 수 있는 이미지 캡처 디바이스를 더 포함하는, 시스템.
KR1020207037767A 2018-07-02 2019-06-26 의사 이미지들을 이용한 얼굴 이미지 인식 KR20210025020A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862693136P 2018-07-02 2018-07-02
US62/693,136 2018-07-02
PCT/US2019/039313 WO2020009877A1 (en) 2018-07-02 2019-06-26 Facial image recognition using pseudo-images

Publications (1)

Publication Number Publication Date
KR20210025020A true KR20210025020A (ko) 2021-03-08

Family

ID=69055232

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207037767A KR20210025020A (ko) 2018-07-02 2019-06-26 의사 이미지들을 이용한 얼굴 이미지 인식

Country Status (6)

Country Link
US (2) US11157721B2 (ko)
EP (1) EP3818693A4 (ko)
JP (1) JP7357010B2 (ko)
KR (1) KR20210025020A (ko)
CN (1) CN112368708B (ko)
WO (1) WO2020009877A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037330B2 (en) * 2017-04-08 2021-06-15 Intel Corporation Low rank matrix compression
WO2020009877A1 (en) * 2018-07-02 2020-01-09 Stowers Institute For Medical Research Facial image recognition using pseudo-images
WO2020246010A1 (ja) * 2019-06-06 2020-12-10 日本電信電話株式会社 画像認識システム、画像認識サーバ、及び画像認識方法
CN111368662B (zh) * 2020-02-25 2023-03-21 华南理工大学 一种人脸图像属性编辑方法、装置、存储介质及设备
CN112132133B (zh) * 2020-06-16 2023-11-17 中国科学院计算技术研究所数字经济产业研究院 标识图像数据增强方法及真伪智能鉴定方法
CN112085112A (zh) * 2020-09-14 2020-12-15 苏州大学 一种图像类别检测方法、系统、电子设备及存储介质
CN112906656A (zh) * 2021-03-30 2021-06-04 自然资源部第三海洋研究所 水下照片珊瑚礁识别方法、系统及存储介质
CN113591607B (zh) * 2021-07-12 2023-07-04 辽宁科技大学 一种车站智能疫情防控系统及方法
CN114693684A (zh) * 2022-06-01 2022-07-01 领伟创新智能系统(浙江)有限公司 一种机载式风机叶片缺陷检测方法
CN115203663B (zh) * 2022-06-25 2023-08-22 北京基智科技有限公司 小视角远距离视频步态精准识别身份认证系统
CN114926890B (zh) * 2022-07-20 2022-09-30 北京远鉴信息技术有限公司 一种人脸真伪的区分方法、装置、电子设备及存储介质

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6353688B1 (en) 1993-06-08 2002-03-05 The Regents Of The University Of California Accelerated signal encoding and reconstruction using pixon method
US5668897A (en) * 1994-03-15 1997-09-16 Stolfo; Salvatore J. Method and apparatus for imaging, image processing and data compression merge/purge techniques for document image databases
US6690830B1 (en) 1998-04-29 2004-02-10 I.Q. Bio Metrix, Inc. Method and apparatus for encoding/decoding image data
US6292575B1 (en) 1998-07-20 2001-09-18 Lau Technologies Real-time facial recognition and verification system
HK1052831A2 (en) * 2002-09-19 2003-09-05 Xiaoou Sean Tang Sketch-photo recognition
US7734652B2 (en) 2003-08-29 2010-06-08 Oracle International Corporation Non-negative matrix factorization from the data in the multi-dimensional data table using the specification and to store metadata representing the built relational database management system
US7646924B2 (en) 2004-08-09 2010-01-12 David Leigh Donoho Method and apparatus for compressed sensing
CA2685237A1 (en) * 2007-04-25 2008-11-06 Pixon Imaging, Llc Image compression and decompression using the pixon method
JP4881230B2 (ja) * 2007-06-14 2012-02-22 株式会社東芝 パターン認識装置及びその方法
WO2009134482A2 (en) * 2008-01-31 2009-11-05 The Board Of Trustees Of The University Of Illinois Recognition via high-dimensional data classification
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
JP5407723B2 (ja) 2009-10-07 2014-02-05 株式会社デンソーアイティーラボラトリ 認識装置、認識方法及びプログラム
EP2328126A1 (en) * 2009-11-27 2011-06-01 Technical University of Denmark Genome-wide association study identifying determinants of facial characteristics for facial image generation
US8787682B2 (en) 2011-03-22 2014-07-22 Nec Laboratories America, Inc. Fast image classification by vocabulary tree based image retrieval
SG194169A1 (en) 2011-04-15 2013-11-29 Imagerecon Llc Method to determine a pixon map in iterative image reconstruction
US20120287031A1 (en) 2011-05-12 2012-11-15 Apple Inc. Presence sensing
CN103164713B (zh) 2011-12-12 2016-04-06 阿里巴巴集团控股有限公司 图像分类方法和装置
FR2989494B1 (fr) 2012-04-16 2014-05-09 Commissariat Energie Atomique Procede de reconnaissance d'un contexte visuel d'une image et dispositif correspondant
EP2893388B1 (en) * 2012-09-03 2016-08-03 SensoMotoric Instruments Gesellschaft für innovative Sensorik mbH Head mounted system and method to compute and render a stream of digital images using a head mounted system
CN103268484A (zh) * 2013-06-06 2013-08-28 温州大学 用于高精度人脸识别的分类器设计方法
WO2014203531A1 (ja) * 2013-06-21 2014-12-24 富士フイルム株式会社 画像表示装置、画像表示方法および画像表示プログラム
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
US20150269314A1 (en) 2014-03-20 2015-09-24 Rudjer Boskovic Institute Method and apparatus for unsupervised segmentation of microscopic color image of unstained specimen and digital staining of segmented histological structures
US9519826B2 (en) 2014-05-08 2016-12-13 Shutterfly, Inc. Automatic image product creation for user accounts comprising large number of images
US9582890B2 (en) 2014-05-19 2017-02-28 Ricoh Company, Ltd. Superpixel-based image segmentation using shading and albedo decomposition
CN106415594B (zh) 2014-06-16 2020-01-10 北京市商汤科技开发有限公司 用于面部验证的方法和系统
US9275309B2 (en) 2014-08-01 2016-03-01 TCL Research America Inc. System and method for rapid face recognition
US9251427B1 (en) 2014-08-12 2016-02-02 Microsoft Technology Licensing, Llc False face representation identification
US9710729B2 (en) 2014-09-04 2017-07-18 Xerox Corporation Domain adaptation for image classification with class priors
US9639954B2 (en) 2014-10-27 2017-05-02 Playsigh Interactive Ltd. Object extraction from video images
US9430694B2 (en) 2014-11-06 2016-08-30 TCL Research America Inc. Face recognition system and method
US10304008B2 (en) 2015-03-20 2019-05-28 Nec Corporation Fast distributed nonnegative matrix factorization and completion for big data analytics
US10776710B2 (en) * 2015-03-24 2020-09-15 International Business Machines Corporation Multimodal data fusion by hierarchical multi-view dictionary learning
US9704020B2 (en) 2015-06-16 2017-07-11 Microsoft Technology Licensing, Llc Automatic recognition of entities in media-captured events
US9430697B1 (en) 2015-07-03 2016-08-30 TCL Research America Inc. Method and system for face recognition using deep collaborative representation-based classification
US9704025B2 (en) 2015-07-31 2017-07-11 King Abdulaziz City For Science And Technology Identifying non-occluded faces by learning from partially occluded faces
US10884503B2 (en) 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
WO2020009877A1 (en) * 2018-07-02 2020-01-09 Stowers Institute For Medical Research Facial image recognition using pseudo-images

Also Published As

Publication number Publication date
EP3818693A1 (en) 2021-05-12
JP2021528728A (ja) 2021-10-21
US11769316B2 (en) 2023-09-26
JP7357010B2 (ja) 2023-10-05
US20200005023A1 (en) 2020-01-02
CN112368708A (zh) 2021-02-12
CN112368708B (zh) 2024-04-30
WO2020009877A1 (en) 2020-01-09
US20210374388A1 (en) 2021-12-02
EP3818693A4 (en) 2021-10-13
US11157721B2 (en) 2021-10-26

Similar Documents

Publication Publication Date Title
JP7357010B2 (ja) 疑似画像を使用した顔画像認識
Jin et al. Pseudo RGB-D face recognition
US8494259B2 (en) Biologically-inspired metadata extraction (BIME) of visual data using a multi-level universal scene descriptor (USD)
US20120063689A1 (en) Object recognition in an image
CN112418041B (zh) 一种基于人脸正面化的多姿态人脸识别方法
Kantarcı et al. Thermal to visible face recognition using deep autoencoders
CN111783748A (zh) 人脸识别方法、装置、电子设备及存储介质
Aydogdu et al. Comparison of three different CNN architectures for age classification
Verma et al. Using convolutional neural networks to discover cogntively validated features for gender classification
JP2008251039A (ja) 画像認識システム及びその認識方法並びにプログラム
Monwar et al. Eigenimage based pain expression recognition
Trokielewicz et al. Post-mortem iris recognition resistant to biological eye decay processes
CN113553895A (zh) 一种基于人脸正面化的多姿态人脸识别方法
Pietkiewicz et al. Recognition of maritime objects based on FLIR images using the method of eigenimages
Di Martino et al. Differential 3D Facial Recognition: Adding 3D to Your State-of-the-Art 2D Method
Sujatha et al. SOM based Face Recognition using Steganography and DWT Compression Techniques
Menezes Analysis and evaluation of deep learning based super-resolution algorithms to improve performance in low-resolution face recognition
Chang et al. Skin feature point tracking using deep feature encodings
Shah Automatic human face texture analysis for age and gender recognition
Xie et al. Facial expression recognition based on multi branch structure
Rabiei Automatic face recognition with convolutional neural network
Herrmann Video-to-Video face recognition for low-quality surveillance data
Karizi et al. View-Invariant and Robust Gait Recognition Using Gait Energy Images of Leg Region and Masking Altered Sections.
Sajja et al. Face recognition using local binary pattern and Gabor-Kernel Fisher analysis
Al-Hassan Mathematically inspired approaches to face recognition in uncontrolled conditions: super resolution and compressive sensing

Legal Events

Date Code Title Description
A201 Request for examination