KR20170055987A

KR20170055987A - 이미지 인식 시스템 및 방법

Info

Publication number: KR20170055987A
Application number: KR1020177009710A
Authority: KR
Inventors: 무투카루판 스와미나단; 토비아스 스외블롬; 이안 청; 옵둘리오 필로토
Original assignee: 테마섹 라이프 사이언스 래보러토리 리미티드
Priority date: 2014-09-15
Filing date: 2015-09-15
Publication date: 2017-05-22
Also published as: CN107111869B9; IL251022A0; AU2015318702A1; EP3195260B1; CN107111869A; CA2960964C; US20170249535A1; EP3195260A1; US10325183B2; AU2015318702C1; IL251022B; EP3195260A4; JP6628803B2; MY188125A; CN107111869B; CA2960964A1; SG11201701902XA; WO2016043659A1; ES2968786T3; KR102535810B1

Abstract

디지털 이미지를 분류하는 개선된 시스템 및 방법을 제공한다. 프로세서를 갖는 호스트 컴퓨터는 참조 특징부 데이터를 저장하는 메모리에 결합된다. 프로세서를 갖는 그래픽 처리 유닛(GPU)은, 호스트 컴퓨터에 결합되고; 호스트 컴퓨터로부터 디지털 이미지에 대응하는 특징부 데이터를 취득하고, 메모리로부터 하나 이상의 참조 특징부 데이터에 액세스하고, 특징부 데이터와 하나 이상의 참조 특징부 데이터 간의 푸아송 이항 분포에 기초하여 세미-메트릭 거리를 결정하도록 구성된다. 호스트 컴퓨터는 결정된 세미-메트릭 거리를 사용하여 디지털 이미지를 분류하도록 구성된다.

Description

이미지 인식 시스템 및 방법{IMAGE RECOGNITION SYSTEM AND METHOD}

본 발명은 일반적으로 이미지 인식을 위한 개선된 시스템 및 방법에 관한 것이다. 더욱 구체적으로, 본 발명은 디지털 이미지의 패턴 인식을 위한 시스템 및 방법에 관한 것이다. 더욱 구체적으로, 본 발명은, 푸아송 이항 분포에 기초하는 푸아송 이항 반경(Poisson-Binomial Radius: PBR)이라고 하는 새롭고 신규한 세미-메트릭 거리 측정을 이용하는 이미지 분류 및 인식 기능을 위한 시스템 및 방법에 관한 것이다.

서포트 벡터 머신(Support Vector Machine: SVM), 주 성분 분석(principal component analysis: PCA), 및 k-최근접 이웃(k-nearest neighbors(NN)) 등의 머신 러닝 방법들은, 거리 측정값을 이용하여 데이터 포인트들 간의 상대적 비유사성(relative dissimilarities)을 비교한다. 적절한 거리 측정값을 선택하는 것은 기본적으로 중요하다. 가장 널리 사용되는 측정값은 거리 제곱의 합(L₂ 또는 유클리드) 및 절대 차들의 합(L₁ 또는 맨하탄)이다.

어떠한 것을 사용해야 하는지에 대한 대답은 최대 우도(ML) 관점에서 얻을 수 있다. 간략하게 설명하자면, L₂는 i.i.d 가우스 분포를 따르는 데이터에 사용되는 반면, L₁은 라플라스 분포 데이터의 경우에 사용된다. [1], [2]를 참조한다. 결국, 기본 데이터 분포가 알려져 있거나 잘 추정되는 경우, 사용될 메트릭을 결정할 수 있다.

문제점은, 입력 변수에 대한 확률 분포가 알려져 있지 않거나 동일하지 않을 때 발생한다. 이미지 획득을 예로 들면, 최신 디지털 카메라로 캡처한 이미지는 항상 잡음으로 인해 손상된다. [3]을 참조한다. 예를 들어, 전하 결합 소자(CCD) 센서의 출력은 유용한 신호와 함께 광자 잡음, 고정 패턴 잡음(FPN)과 같은 다양한 잡음 성분들을 반송한다. [4]를 참조한다. 또한, 이미지는 신호 증폭 및 송신 중에 잡음으로 인해 손상되기 쉽다. [5]를 참조한다. 문헌에서 발견되는 가장 일반적인 유형의 잡음은 가산적, 임펄스 또는 신호 의존 잡음이다. 그러나, 최신 디지털 카메라에서 생성되는 잡음의 유형과 양은, 카메라 설정(조리개, 셔터 속도, ISO) 외에도 카메라의 브랜드 및 시리즈 이름 등의 특정한 세부 사항에 의존하는 경향이 있다. [6]을 참조한다. 또한, 이러한 문제점에 대하여, 이미지 파일 포맷 변환 및 파일 전송으로 인해 메타데이터가 손실될 수 있다. 캡처된 이미지는, 잡음이 없는 것처럼 보이더라도, 여전히 인간의 눈에 띄지 않는 잡음 성분들로 이루어질 수도 있다. [7]을 참조한다. 특징부 기술자들(feature descriptors)이 이러한 이종 잡음 소스들의 영향을 받으면, 이에 따라, 이러한 기술자들이 독립적이지만 동일하지 않게 분포되어 있지 않다고(i.n.i.d) 가정하는 것이 타당하다. [8]을 참조한다.

대부분의 거리 측정법에 내재된 것은, 입력 변수들이 독립적이며 동일하게 분포되어 있다(i.i.d)는 가정이다. 생물학적 서열분석 데이터 분석 및 기타 분야의 최근 진전은, 실제로 입력 데이터가 i. i.d 가정을 종종 따르지 않는다는 것을 입증하였다. 이러한 불일치를 고려함으로써, 더욱 정확한 결정 기반 알고리즘으로 이어지게 되었다.

몇몇 스레드들이 세미-메트릭 거리 측정의 개발에 기여해 왔다. 첫 번째는 거리 메트릭으로서 적합하도록 거리 측정에 의해 충족되어야 하는 공리에 관한 것이다. 이것들은 비-부정성, 대칭성, 반사성, 및 삼각 부등식의 공리들이다. 삼각 부등식 공리를 만족시키지 못하는 측정들은 정의상으로는 세미-메트릭 거리라고 불린다.

대부분의 애플리케이션에서 거리 메트릭이 널리 사용되고 있지만, 일부 공리, 특히 삼각 부등식에 대한 필요성을 의심할만한 충분한 이유가 있다. 예를 들어, 인간 피험자가 이미지 인식 작업을 수행하도록 요구될 때 삼각 부등식 공리가 통계적으로 상당히 위반되는 것으로 나타났다. [9]를 참조한다. 다른 일례로, Wild(LFW) 및 Caltech101 데이터세트의 Labeled Faces를 사용하여 이미지 인식을 위한 최고 수행 알고리즘에 의해 생성된 거리 스코어도, 삼각 부등식을 위반하는 것으로 나타났다. [10]을 참조한다.

다른 스레드는 "차원의 저주"에 관련된다. 특징부 공간의 차원의 개수가 증가함에 따라, 주어진 질의에 가장 가까운 이웃과 가장 멀리 있는 이웃의 거리들의 비는 가장 합리적인 데이터 분포 및 거리 함수에 대하여 유니티(unity)로 수렴하는 경향이 있다. [11]을 참조한다. 데이터 포인트들 간의 열악한 대조는, 고차원 공간에서의 최근접 이웃 검색이 중요하지 않음을 의미한다. 결과적으로, 분수적 L_p 세미-메트릭[12]은 대조를 유지하기 위한 수단으로서 생성되었다. (x_i,y_i)가 i.i.d 랜덤 벡터들의 시퀀스인 경우, L_p 거리는 아래와 같이 정의된다.

(1)

p=1로 하면 맨하탄 거리를 얻게 되고, p=2로 하면 유클리드 거리를 얻게 된다. pε(0,1) 값들에 대하여, L_p는 분수적 L_p 거리 측정값을 제공한다.

L_p 및 L₂ 거리를 비교하는 얼굴과 합성 이미지를 위한 템플릿 매칭 연구에 있어서, 이미지들이 잡음과 폐색에 의해 열화되었을 때 pε(0.25, 0.75) 값들이 L₂보다 우수하다고 결론지었다. [13]을 참조한다. 다른 그룹들은, 또한, L_p 거리를 사용하여 합성 이미지와 실제 이미지를 비교하였다. [14]를 참조한다. Howarth 등([15])은 콘텐츠 기반 이미지 검색에 L_p 거리를 사용하는 아이디어를 연구했으며, 그 결과, p=0.5에 의해 검색 성능이 개선될 수도 있고 L₁과 L₂ 놈(norm) 모두를 지속적으로 능가할 수도 있음을 나타낸다.

언급할 만한 가치가 있는 다른 세미-메트릭 거리들은, 동적 부분 기능(DPF)([16]), 제프리 발산(JD)([17]), 및 정규화된 편집 거리(NED)([18])이다.

현재까지는, i.n.i.d 분포를 처리하도록 패턴 인식에서 거리 측정이 입증되지 않았다. 따라서, 패턴 인식을 위한 개선된 시스템 및 방법이 필요하다.

본 발명에 따르면, 푸아송 이항 분포에 기초하는 푸아송 이항 반경(PBR)이라 칭하는 새로운 세미-메트릭 거리를 이용하는, 패턴 인식을 위한 시스템 및 방법을 제공한다. 본 발명은 제한되지 않는 많은 장점들을 제공한다. 예를 들어, 본 발명은, i.i.d. 추정을 피하고 i.n.i.d. 특징부 기술자들을 고려하고 잡음 조건에서의 열화에 대한 강건성을 또한 입증하는 강건한 세미-메트릭을 포함한다. 또한, 본 발명은 처리를 감소시키고 효율을 개선함으로써 패턴 인식 장치 자체의 효율을 개선한다.

본 발명의 양태들에 따르면, 시스템과 방법은 실시간 애플리케이션에 적합하다. 예를 들어, 본 발명의 실시예들에 따르면, 구현 특징부들은 그래픽 처리 유닛(GPU)을 사용하여 병렬 처리된다.

본 발명의 다른 양태들에 따르면, 작은 트레이닝 샘플 세트들에도 불구하고 고 분류 정확도를 달성하는 새로운 분류자를 도입한다. 본 발명의 다른 양태들에 따르면, 분류자는, 최적화를 위해 교차 검증이나 트레이닝 위상을 필요로 하지 않고 더욱 많은 클래스들을 처리하도록 쉽게 일반화될 수 있다.

본 발명의 양태들에 따르면, 패턴 인식을 위한 새로운 거리 측정법은, 입력들이 동일하게 분포된다는 추정을 피하는 푸아송 이항 분포에 기초한다. 본 발명자들은 본원에서 설명하는 실험들에서 이러한 새로운 대책을 테스트하였다. 한 실험은 디지털화된 인간 이미지와 고양이 이미지를 구별하는 이진 분류 작업이었고, 다른 실험은 두 개의 이미지 라이브러리로부터 컴파일링된 귀의 디지털화된 이미지들의 식별이었다. 이러한 양측 실험에 있어서, 이 측정법의 성능을 유클리드 측정법, 맨하탄 측정법, 및 분수적 L_p 거리 측정법과 비교하였다. 이러한 두 개의 실험에 대한 특징부 추출은, 형상과 텍스처 정보를 캡처하도록 배향된 그라디언트들의 GPU-병렬처리된 히스토그램(Histogram of Oriented Gradients: HOG)을 사용하여 달성되었다.

본 발명자들은, 본 발명이 전술한 종래 기술의 거리 측정법들을 사용하는 패턴 인식 방법들보다 일관되게 우수하다는 점을 입증하였다. 또한, 그 결과로, 제안된 거리 측정법은 머신 러닝 알고리즘의 유효성을 개선할 수 있다.

본 발명의 양태들에 따르면, 이미지 분류 시스템을 제공한다. 시스템은, 수신된 이미지에 대하여 HOG 특징부들의 산출을 수행하고 산출된 HOG 특징부들을 트레이닝 이미지들의 저장된 HOG 특징부들과 비교하는 GPU를 포함한다. 시스템은, PBR에 기초하는 최근접 매칭 트레이닝 이미지에 기초하여 이미지를 분류한다.

본 발명의 양태들에 따르면, 이미지 분류 시스템을 이용하여 암 세포들을 정상 세포들과 구별할 수 있다.

본 발명의 양태들에 따르면, 이미지 분류 시스템을 이용하여 지문들을 매칭할 수 있다.

본 발명의 양태들에 따르면, 이미지 분류 시스템을 이용하여 DNA 또는 RNA 서열분석 데이터의 희귀 변이체를 식별할 수 있다.

본 발명의 양태들에 따르면, 이미지 분류 시스템을 이용하여 얼굴을 인식할 수 있다.

본 발명의 양태들에 따르면, PRICoLBP를 HOG의 대안으로서 사용할 수도 있다. 유사하게, SVM 커널을 kNN의 대안으로서 사용할 수도 있다.

본 발명의 다양한 실시예들의 추가 응용과 이점은 도면을 참조하여 아래에 설명된다.

도 1A 및 도 1B는 DNA 서열분석 분석을 위한 출력 확률 질량 함수를 도시한다.
도 2a 및 도 2b는 각각 (a) LFW 데이터세트 및 (b) 고양이 데이터세트로부터의 이미지들의 예이다.
도 3a는 본 발명의 일 실시예에 따라 이미지 인식을 위한 예시적인 구현 아키텍처의 블록도이다.
도 3b는 본 발명의 일 실시예에 따라 DNA 희귀 변이체 검출을 위한 예시적인 구현 아키텍처의 블록도이다.
도 3c는 본 발명의 실시예들에 따라 이미지 인식을 수행하기 위한 기본 흐름도이다.
도 4는 트레이닝 이미지들의 개수의 함수 대 분류 정확도의 그래프이다.
도 5는 서로 다른 거리 측정법들을 사용하는 이미지 분류 애플리케이션에 대한 계산 시간을 비교하는 막대 그래프이다.
도 6a 및 도 6b는 각각 (a) IIT Delhi I 데이터베이스 및 (b) IIT Delhi II 데이터베이스에 대한 누적 매칭 곡선(CMC)을 도시한다.
도 7a 및 도 7b는 각각 (a) IIT Delhi I 데이터베이스 및 (b) IIT Delhi II 데이터베이스에 대한 랭크-원(rank-one) 인식 성능에 대한 잡음의 효과를 도시한다.
본 발명은 서로 다른 많은 형태로 구체화될 수도 있지만, 이하에서는 많은 예시적인 실시예들을 전술한 도면을 참조하여 설명하며, 본 개시 내용은 본 발명의 원리의 예들을 제공하는 것으로 고려해야 하며 이러한 예들은 본 발명을 본원에서 설명하는 및/또는 본원에서 예시하는 바람직한 실시예들로 한정하려는 것이 아니라는 점을 이해할 수 있다.

푸아송 이항 분포는, 연속적으로 주어지는 n개의 독립적이며 동일하지 않은 성공 확률(p₁,...,p_N)에 대한 확률 질량 함수에 의해 정의된다. 이러한 이벤트들은 확률 공간(Ω, F, P)에 존재한다. 분포는, 평균(mean; μ)이 p_i의 합인, 단봉형이며, 여기서 i는 1부터 N까지 증가하고, 분산 σ²는, i가 1부터 N까지 증분되는 (1-p_i)p_i의 합이다.

이러한 특별한 경우의 분포는, 모든 i에 대하여 p_i가 동일한 값을 갖는 이항 분포이다. 푸아송 이항 분포는, 생물학, 이미징, 데이터 마이닝, 생물 정보학, 및 공학과 같은 광범위한 분야에서 사용될 수도 있다. 푸아송 이항 분포를 푸아송 분포로 근사화하는 것은 일반적이지만, 이러한 근사화는, 입력 확률이 아래의 Le Cam의 정리([19])에 의해 정의되는 오류에 대한 경계로부터 명백한 만큼 작을 때에만 유효하다.

(2)

여기서, Ρ(Ω_n)은 푸아송 이항 도메인에서의 연속 n개의 확률이고, λ는 푸아송 파라미터이다.

푸아송 이항 분포는 연구 응용 분야에서의 사용이 증가하고 있다. Shen 등([20])은 KEGG와 PubChem과 같은 큰 분자 데이터베이스로부터 대사 산물 식별을 위한 머신 러닝 접근법을 개발했다. 분자 지문 벡터는 푸아송 이항 분포로서 처리되었으며, 그 결과, 피크 확률이 후보 검색에 사용되었다. 유사하게, Lai 등([21])은 인산화 부위 인식에 기초하여 키나제 기질을 예측하기 위한 통계적 모델을 개발했다. 중요한 것은, 공통 시퀀스에 일치하는 것을 관찰할 확률은 푸아송 이항 분포를 사용하여 산출되었다. 다른 그룹들([22], [23])은 이 분포를 사용하여 종양 표본의 유전자 변이를 식별하였다.

변이 사건의 확률은 표본마다 가변되므로, 개별적인 DNA 염기 위치는, 각 샘플의 모든 위치에서 유전적 변이의 우도를 확인하도록 불균등한 성공 확률을 갖는 독립적 베르누이 시험으로서 처리된다. 동일한 추론에 따라, 희귀 변이체들을 정확하게 호출하기 위한 모델들([24], [25])이 제안되었다.

본 발명은, 특히 서열분석 품질 스코어에 기초하여 DNA 서열분석 분석의 정확성을 개선하는 것을 추구한다. 모든 단일 서열분석된 DNA 염기에 대하여 사용가능한 각 스코어는, 출력 값이 정확하게 호출된 확률을 반영한다. 예를 들어, 특정 위치에 대한 N개의 독립적 판독이 있는 경우, 서열 분석 소프트웨어는, 판독 오류의 확률을 고려하여 그 위치에서의 각각의 판독에 대한 품질 스코어 q_i를 생성할 것이다. 정확한 판독의 내재된 확률은 다음과 같이 주어진다:

(3).

각각의 서열분석된 위치의 아이덴티티는 동일한 위치의 다중 판독에 기초하여 호출되기 때문에, 때로는 수천 개의 번호가 매겨지며, 각 번호는, 베르누이 이벤트가 처리되고 그 위치에 대한 관련된 품질 스코어를 사용하여 각각의 서열분석된 위치에 대하여 확률 분포를 구축하고자 할 때마다 판독되었다. 이 확률 분포를 컴퓨팅하는, 즉, 계산하는 효율적인 방식이 발견되었고 아래에서 설명한다.

워링의 정리( Waring's Theorem) 이용

p₁,...,p_N을 확률 공간(Ω, F, P)에 존재하는 독립적이며 동일하지 않은 이벤트들로서 정의한다. Z_k는, 또한, p₁,...,p_N으로부터 도출된 모든 고유한 k-조합들의 합으로서 정의된다. 따라서 공식적으로,

(4)

여기서, 빈 집합에 대한 교집합은 Ω로서 정의된다. 따라서 Z₀ = 1이고, 합은 인덱스 1,...,N의 모든 부분집합 I에 대해 실행되며, 여기서 N은 정확하게 k개의 원소를 포함한다. 예를 들어, N=3이면,

(5)

이어서, Schuette-Nesbitt 공식([27])의 특별한 경우인 워링의 정리([26])를 사용하여 모든 중복 카운팅된 집합들에 대하여 교집합들을 정규화함으로써 P(n)을 Z_k로 정의한다.

(6)

포함-배제(inclusion-exclusion) 정리는 n=0에 의해 주어진다. Z_k를 컴퓨팅하는 확장 가능한 수단은 알고리즘 1에 설명되어 있다.

<알고리즘 1: 재귀 워링 알고리즘>

이 접근법의 주요 이점은, N값이 증가함에 따라 시간 복잡성이 기하급수적으로 감소된다는 점이다. 이것은 중복을 최소화하기 위해 계산을 블록들로 그룹화하는 알고리즘의 동적 프로그래밍 특성으로부터 발생한다. 이러한 자기 유사 재귀적 구조는 조합 폭발을 피함으로써 산출을 가능하게 한다. 이 접근법을 사용함으로써, 산출할 필요가 있는 블록들의 총 개수가 N²와 함께 증가하고, 산술 합 N/2*(1+N)에 의해 설명된다.

이 접근법의 다른 장점은 각 열의 요소들을 병렬로 컴퓨팅할 수 있다는 점이다. 이는, 시간 복잡성이 병렬 처리가 없는 O(N²)로부터 전체 병렬 처리가 구현된 O(N)로 감소됨을 의미한다. 매트릭스 요소들을 역방향으로 산출하고 이에 따라 매트릭스(A^T)의 병렬 계산을 위한 탠덤 방법을 제공함으로써 추가 개선을 이룰 수도 있다. 이것은, 알고리즘 1에서 정의된 재귀 함수에 더하여 동시에 2개의 재귀 함수인

과

을 사용함으로써 달성된다. 전술한 방법들은 결합 확률 질량 함수(p.m.f.)를 생성하는 효율적인 수단을 제공한다. 여기서, N=6인 경우는, Z_k 시리즈에 적절한 이항 계수를 곱한 값에 의해 입증된다.

후술하는 대안 방법을 사용하여 동일한 pmf를 생성할 수도 있다.

고속 푸리에 변환

전술한 바와 동일한 정의를 사용하면, 임의의 특정 조합의 확률(ω)은, 발생하는 이벤트와 발생하지 않는 이벤트의 조합 곱으로서 기입될 수 있다.

(7)

Ω_n가 n번의 발생과 N-n번의 비발생으로부터 발생하는 I와 I^C의 모든 가능한 쌍 세트들의 대응하는 샘플 공간으로 정의되면,

(8)

이다.

위 식은, 발생 및 비발생의 모든 가능한 조합들의 합산 확률이므로 직관적이다. 관측에 의해, P(Ω_n)를 N차 다항식의 계수로서 표현하는 다항식을 구성할 수 있다.

(9)

이어서, 상기 다항식에 대한 계수는 이산 푸리에 변환에 기초하는 알고리즘을 사용하여 쉽게 풀 수도 있다. 관련 계수 벡터는 다음과 같이 효율적으로 산출될 수도 있다:

(10).

실제로, 벡터들은, 2제곱 길이까지 선행 제로(1eading zero)들로 패딩된 후, IFFT^-1(FFT(a)*FFT(b))을 사용하여 쌍으로 반복적으로 처리될 수도 있고, 여기서 a와 b는 벡터들의 임의의 쌍을 나타낸다. 고속 푸리에 변환(FFT)의 GPU 구현을 이용함으로써, 인터리브된 입력들과 디컨볼루션된 출력들의 간단한 방식을 사용하여 여러 입력들을 병렬로 처리할 수 있다. 이 함수는 튜플들의 리스트를 리턴하며, 여기서 i번째 튜플은 인수 시퀀스들 또는 반복체들(iterables)의 각각의 i번째 요소를 포함한다.

DNA 서열분석

본 발명의 한 가지 중요한 응용 분야는, DNA 염기 위치당 수천 회의 판독을 분석해야 하는 차세대 DNA 서열분석 데이터세트의 분석이다. 특정 염기 위치가 암에서 돌연변이되면, 이러한 변형을 검출하는 것이 이상적인 진단일 것이다. 실제로, 변이형 DNA는 낮은 비율로 정상 DNA와 종종 혼합되며, 동일한 염기 위치에서 검출되는 2가지의 상충되는 상태에서 통계적 신뢰도를 산출하는 것이 도전 과제이다. 이것은, 이러한 상충되는 상태들을 베르누이 이벤트로서 취급하고 전술한 두 가지 방법 중 하나를 사용하여 p.m.f.s를 구성함으로써 달성될 수도 있다. 출력 예가 도 1A 및 도 1B에 도시되어 있다.

이어서, 이러한 p.m.f.s로부터 산출된 신뢰 구간은, 변형 염기 상태에 대한 증거가 유의성 임계값보다 충분히 큰지를 결정할 수 있게 한다. 본 발명의 양태들에 따르면, 유사한 원리들을 패턴 인식 응용 분야, 특히 이미지 분석에 관련된 응용 분야에 적용할 수 있다. 이것은, 픽셀 강도가 양자 물리학의 법칙에 의해 지배되므로 랜덤 변수로서만 간주될 수 있고 참값을 갖지 않는다는 사실에 의해 지지될 수 있다([28]).

푸아송 이항 반경 세미메트릭 거리

모든 쌍 거리 비교에 대한 신뢰 구간 산출은 큰 이미지 데이터세트에서 계산 집약적일 것이다. 이 비용을 피하고 효율성을 개선하도록, 다음과 같이 독립적이지만 동일하지 않은 특징부 기술자들에 대한 거리 측정을 정의할 수 있다.

정의. pi=｜a_i-b_i｜인 2개의 N차원 특징부 벡터 X=(a₁, a₂, a₃, ..., a_N) 및 Y=(b₁, b₂, b₃,..., b_N)가 주어진 경우, 두 벡터 간의 거리는 아래와 같다:

(11)

여기서, m은 모드이고, P(m)은 분포의 피크 확률이다. Darroch([29])는 이전에 모드 m이 다음과 같이 한정될 수도 있음을 보여 주었다:

여기서 0≤n≤N이다. 이는 m이 평균 μ로부터 1 미만만큼 다르다는 것을 의미한다. 따라서, 모드 m은, 국부 최대값이지만, 평균 μ로 근사화된다. 이는 수학식 (12)를 가능하게 한다:

(12).

아래의 수학식 (13)으로 주어진 푸아송 이항 분포의 과도한 첨도를 고려함으로써 추가 세분화를 행할 수도 있다:

(13)

여기서 σ²는 p.m.f의 분산이다. σ²를 갖는 분포의 첨두값과의 역 관계는 P(Ω_μ)와 σ 간의 유사 관계를 의미한다. 이 역관계는, 또한, 다음에 따르는 베르누이 시행의 합에 대한 첨예하고 균일한 상한을 확립한 Baillon 등([30])의 작업과도 일치한다.

(14)

여기서 η은 상한 상수이다. 이 역관계의 의미는, σ가 Ρ(Ω_μ)의 대리 측정으로서 채택될 수 있으므로 각 거리 산출마다 p.m.f를 생성할 필요가 없다는 것이다. 따라서, 독립적이며 동일하지 않은 특징부 기술자들에 대한 다음의 세미메트릭이 정의될 수 있다.

p_i=|a_i - b_i|인 2개의 N차원 특징부 벡터 X=(a₁, a₂, a₃,..., a_N)와 Y=(b₁, b₂, b₃,..., b_N)가 주어진 경우, 그 두 개의 벡터 간의 푸아송 이항 반경 거리는 아래와 같다:

(15)

여기서, PBR(X, Y)은 세미메트릭이고, 함수 d:X×X→[0, 1]은, 다음에 따르는 특성들, 즉, (1) 음이 아닌 값, d(X,Y)>=0; (2) 대칭 특성, d(x, y)=d(Y, X); 및 3) 반사성, d(x, x)=0을 충족하면 {x, y}에 대한 집합 X의 세미메트릭이다. PBR은 음이 아닌 함수이며, 반사 특성을 충족한다. 절대값들만 사용되므로, PBR도 대칭 특성을 충족한다. 아래의 표 4를 보면, PBR과 PBμ는 사실상 같은 거리 측정값들이다.

이미지 분류 애플리케이션

이미지 분류는, 이미지의 디지털 콘텐츠의 분석(예를 들어, 픽셀 데이터의 분석)에 기초하여 지정된 클래스에 디지털 이미지를 할당하는 컴퓨터 자동화 프로세스이다. 이러한 프로세스들의 가장 흔한 사용은 이미지 검색, 또는 보다 구체적으로, 콘텐츠 기반 이미지 검색(CBIR)에 있다. CBIR은, 질의 이미지로부터 자동 추출된 특징부들에 기초하여 하나 이상의 디지털 이미지 저장소로부터 밀접하게 매칭되거나 유사한 이미지들을 검색하는 프로세스이다. 의료 진단, 지적 재산권, 범죄 수사, 원격 감지 시스템, 및 사진 보관 및 관리 시스템에서 많은 실용적이고 유용한 응용 분야들이 있음을 알게 되었다. [31]을 참조한다.

임의의 CBIR 시스템에서의 주요 목적은, 높은 검색 정확도 및 낮은 계산 복잡도이다(본 발명은 둘 모두를 개선한다)． 이미지 검색에 앞서 이미지 분류 단계를 구현하면, 검색 정확도를 높일 수 있다. 또한, 계산 복잡도는 이 단계에 의해 감소될 수 있다.

N_T는 클래스당 트레이닝 이미지의 개수이고, N_C는 클래스의 개수이고, N_D는 이미지당 특징부 기술자들의 개수라 한다. 통상적인 CBIR 시스템의 계산 복잡도는

이다. [34]를 참조한다. 반대로, 사전 분류 단계를 추가하면 복잡도가 감소되어

로 된다. 첫 번째 항은 Naive-Bayes 최근접 이웃 분류기([35])를 사용한 이미지 사전 분류를 가리키고, 두 번째 항은 CBIR 프로세스 자체를 가리킨다.

소정의 관점을 제시하도록, N_T=100, N_C=10, 및 N_D=150인 경우를 고려한다. 후자의 계산 복잡도는, 전자의 결과에 비해 처리 속도를 7배로 증가시킨다. 따라서, 이미지 사전 분류는 CBIR 성능을 개선한다.

고양이 머리와 얼굴의 검출은 최근 연구자들의 관심을 끌었으며, 인터넷에 대한 인기 및 인간 동료로서의 인기를 반영하였다([36], [37], [38], [39]). 고양이는 패턴 인식에 대한 흥미로운 도전 과제를 제시한다. 인간과 유사한 얼굴 형상을 공유하는 경우에도, 인간의 얼굴을 검출하는 접근법은, 인간에 비해 고양이의 얼굴 특징부와 텍스처 간에 클래스내 편차가 크기 때문에 고양이에 직접 적용될 수 없다. 본 발명은 이 둘을 구별할 수 있는 PBR 기반 분류기이다.

Wild(LFW) 이미지 데이터세트(도 2a)의 라벨링된 얼굴은 [40]의 저자에 의해 생성되었고, 고양이 데이터세트(도 2b)는 [36]의 저자에 의해 생성되었다. 이들은 13,233개의 인간 이미지와 9,997개의 고양이 이미지로 이루어진다. 일례로, 각 클래스 내에서, 이미지들의 70%는 트레이닝을 위해 랜덤하게 파티션화되고, 나머지 30%는 테스트를 위해 파티션화된다.

본 발명의 양태들에 따르면, 본원에서 설명하는 바와 같이 이미지 분류를 수행할 수 있는 이미지 분류 시스템이 도 3a에 도시된다(도 3c에 도시된 기본 프로세스 참조). 도시된 바와 같이, 시스템은, 메모리(도시되지 않음)에 대한 액세스를 갖는 호스트 컴퓨팅 시스템(예를 들어, CPU)과 결합된 그래픽 프로세서를 포함한다. 도 3a에 도시된 바와 같이, 호스트는 트레이닝 이미지를 위해 저장된 이미지 또는 이미지 데이터에 액세스할 수 있다. 후술하는 바와 같이, 각 이미지는 특정 응용 분야에 기초하여 선택될 수 있는 표준 크기(예를 들어, 250×250 픽셀)로 리사이징된다. 리사이징 후에, 배향 그라디언트 히스토그램(HOG)이 특징부 추출에 사용된다. HOG 데이터는, 각 트레이닝 이미지마다 저장되고 액세스될 수도 있으므로, 즉시 생성(또는 재생성)될 필요가 없다. 분류될 이미지(도 3a의 테스트 이미지)는, 메모리, 네트워크, 또는 이미지 캡처 시스템(카메라, 스캐너, 또는 기타 촬상 장치) 등의 이미지 소스로부터 호스트에서 수신된다. 이미지는 표준 크기로 리사이징된다. 리사이징 후에, HOG가 특징부 추출에 사용된다.

HOG 데이터는 추가 처리를 위해 GPU에 입력된다. 배향이 컴퓨팅되며 히스토그램이 생성된다. 히스토그램은 (도시한 바와 같이 호스트에 의해) 정규화되어 있다. PBR 산출은 트레이닝 이미지 데이터와 테스트 이미지 데이터 모두에 대하여 수행된다. 물론, PBR 산출은 트레이닝 이미지 및 저장된 결과에 대해 미리 수행될 수도 있다. 마지막으로, 비교를 행하여 PBR 결과를 사용하여 최근접 매치를 찾음으로써 이미지를 분류한다. 예를 들어, 알고리즘 2(아래)가 사용될 수도 있다.

일례로, HOG의 GPU 계산 시간처리된 버전([41])이 특징부 추출에 사용되었다. Mitani 등([42])에 의해 사용된 국부적 평균 기반 넌파라미터 분류자의 수정인 적응형 국부 평균 기반 k-최근접 이웃(ALMKNN)이라고 하는 분류자를 사용한다. ALMKNN은 GPU에 부분적으로 구현된다.

HOG 특징부는, NVIDIA CUDA(Compute Unified Device Architecture) 프레임워크를 사용하여 GPU 구현될 수도 있다. HOG 특징부는, Navneet Dalai와 Bill Triggs([41])에 의해, 이미지의 그라디언트의 공간 분포를 표현함으로써 외관과 형상을 추상화하는 수단으로서 처음 기술되었다. 이것은 보행자 검출([43]), 차량 검출([44]), 및 제스처 인식([45])에 적용되었다. 일 실시예에 따르면, 직사각형-HOG(R-HOG) 변형([46])이 이하에서 설명하는 바와 같이 사용된다.

본 발명의 다른 양태에 따르면, 예를 들어, 종양 생검의 경우, 희귀 변이체 검출과 같은 DNA 서열분석을 위한 시스템 및 방법을 제공할 수도 있다. 서열분석 품질 확률의 벡터 X(X=(x₁, x₂, x₃,..., x_dx))는 서열분석 깊이 d_x를 갖는 단일 염기 위치에서의 입력 DNA 샘플로부터 온 것이고, 유사한 벡터 Y(Y= (y₁, y₂, y₃,..., Y_dy))는 깊이 d_y로 서열분석된 참조(reference) DNA 샘플로부터 온 것이다. 두 벡터에 대한 평균(μ)과 표준 편차(σ)는 다음과 같다:

.

벡터 X와 벡터 Y를 비교하기 위해, PBR_seq를 다음과 같이 X와 Y 간의 거리가 되도록 정의할 수 있다:

.

작은 PBR_seq 값은 종양 샘플의 더욱 큰 우도를 나타낸다. 분류를 위해, PBR_seq<T이지만 그 외에는 정상으로 분류되면 샘플 X가 종양으로 분류되는 간단한 임계값 T를 정의할 수 있다.

도 3b에 도시한 바와 같이, DNA 서열분석을 위한 시스템을 제공한다. 도 3b에 도시한 바와 같이, 시스템은, 도 3a의 시스템과 유사하지만, 벡터 데이터를 사용하여 DNA 서열분석을 위한 전술한 방법을 구현한다. 도시된 바와 같이, 전술한 바와 같은 입력 품질 스코어 벡터는 입력 확률 벡터로 변환되며, 이는 호스트에 의해 달성될 수 있다. 참조(reference) 확률 벡터는 사전에 제공되거나 호스트에 의해 계산되어 GPU에 제공될 수 있다. GPU는, 두 개의 확률 벡터를 수신하고 입력 벡터와 참조 벡터 간의 PBR_seq 거리를 계산하도록 구성된다. 거리는 DNA 서열을 분류하는 데 사용되며, 호스트는 할당된 클래스의 표시를 출력한다.

그라디언트 계산(Gradient computation)

입력 이미지 I(x, y)가 주어지면, x 및 y 방향으로 그라디언트 필터를 적용하여 1차원 공간 미분 I_x(x, y) 및 I_y(x, y)를 컴퓨팅할 수도 있다. 각 픽셀의 그라디언트 크기 Mag(x, y)와 배향(x, y)은 아래의 식들을 사용하여 산출될 수도 있다.

(16)

(17)

히스토그램 누적.

히스토그램은, 각 픽셀의 그라디언트 크기를 셀이라 칭하는 국부적 공간 영역에 걸쳐 대응하는 배향 빈(bins)으로 누적함으로써 생성될 수도 있다. 조명과 콘트라스트의 효과를 줄이기 위해, 히스토그램을 전제 이미지에서 걸쳐 정규화한다. 마지막으로, HOG 기술자는 모든 셀들의 정규화된 히스토그램을 단일 벡터로 연결함으로써 형성된다.

일례로, 전술한 HOG 알고리즘은, PyCUDA 툴킷([47]) 버전 2012.1 및 5.0 버전의 NVIDIA CUDA 툴킷을 사용하여 구현되었으며, GeForce GTX 560 Ti 그래픽 카드에서 실행되었다. 각 이미지는 250×250(62,500개 픽셀)으로 리사이징된 후 각 셀마다 50×50 픽셀인 25개의 셀로 균등하게 나누어졌다. 62,500개 픽셀을 처리하기 위해, 블록당 32×32 스레드 및 그리드당 8×8 블록을 갖는 GPU에서 65,536개의 스레드를 생성한다. 호스트와 GPU 모두에 메모리를 할당하면, 커널이 시작된다.

그라디언트 크기, 배향, 및 히스토그램은, 전체 이미지에 대한 정규화가 수행되는 호스트에 히스토그램이 전송된 후에 산출될 수도 있다.

분류 모듈

분류자는 파라메트릭 또는 넌파라메트릭일 수도 있다. 파라메트릭 분류자는, 일반적으로 정규 분포인 각 클래스에 대한 통계 분포를 상정한다. 트레이닝 데이터는 분류 모델만을 구성하도록 사용된 후 완전히 폐기된다. 따라서, 이들은 모델 기반 분류자 또는 열렬 분류자(eager classifier)라고 한다. 대조적으로, 넌파라메트릭 분류자는 데이터의 확률 분포에 대한 상정을 하지 않으며, 저장된 트레이닝 데이터에만 기초하여 테스트 튜플들을 분류하므로, 인스턴스 기반 또는 지연 분류자라고도 알려져 있다. 파라메트릭 분류자의 프로토타입 예로는, 분류자 파라미터의 집중적 트레이닝 단계를 필요로 하는 서포트 벡터 머신(SVM)([48], [49], [50])이 있으며, 역으로, 가장 잘 알려진 넌파라메트릭 분류자들 중 하나는 k-최근접 이웃(k-nearest neighbor; kNN) 분류자이다.

kNN([51])은 단순성과 효율성으로 인해 패턴 인식 문제에 널리 사용되어 왔다. 또한, 이것은, 데이터 마이닝에 있어서 상위 10개의 알고리즘 중 하나인 것으로 간주된다([52]). kNN은, 트레이닝 세트의 k-최근접 이웃들의 대부분의 클래스 라벨에 연관된 클래스를 각 질의 패턴에 할당한다. 이진(2-클래스) 분류 문제에 있어서, k값은 일반적으로 묶인 표를 피하도록 홀수이다. kNN은, 많은 수의 클래스를 처리할 수 있는 능력, 과도한 피팅의 회피, 및 트레이닝 단계의 부재 등 몇 가지 장점을 갖고 있지만, 다음과 같이 (1) 계산 시간, (2) 이상값(outlier)의 영향([53]) 및 (3) k를 선택할 필요성([54])이라는 세 가지 주요 단점이 있다.

첫 번째 문제인 시간 복잡도는, 특히 트레이닝 세트의 크기가 매우 클 때 트레이닝 세트와 질의 패턴 간의 거리 계산 중에 발생한다. 이 문제는 kNN을 병렬화하여 시간 복잡도를 일정한 0(1)으로 감소시킴으로써 해결될 수 있다. 이것은 O(logN) 시간 내에 있는 검색 트리와 같은 대체 구현예와 잘 비교된다. 두 번째 문제는 이상값의 영향을 포함한다. 이 문제를 해결하기 위해, 국부적 이웃들에 초점을 맞춘 접근법을 사용할 수 있다. 그러나, LMKNN(Local Mean kNN)이라고 하는 이런 유형의 접근법은 k에 대한 값을 선택해야 하는 문제를 여전히 갖고 있다. 대부분의 경우, k는 교차 검증 기술([55])에 의해 선택된다.

그러나, 이것은 시간이 오래 걸리고 과도한 피팅의 위험이 있다. 따라서, 본 발명은, k가 적응적으로 선택되는 알고리즘을 포함하고, 따라서 고정된 k 값에 대한 필요성을 제거한다. k에 상한을 두기 위해, N의 제곱근인 엄지손가락의 규칙을 사용하며, 여기서 N은 T의 총 트레이닝 인스턴스이다([56]). 이 알고리즘은 적응형 LMKNN 또는 ALMKNN이라 칭한다.

이러한 분류자의 동작은 알고리즘 2에 설명되어 있다.

16,261(T 내의 N)개의 트레이닝 인스턴스의 경우, 이웃에 대한 한계값, k_min과 k_max는 각각 20과 127로서 정의될 수도 있다(√N의 플로어(floor)임). 의사 결정을 위해 하한(LB)과 상한(UB)을 각각 2%와 50%로 정의할 수도 있다. 거리 계산의 첫 번째 단계는 CUDAMat([57])를 사용하여 GPU에서 구현될 수도 있다. 나머지 알고리즘은 CPU(호스트)에서 구현되었다. 트레이닝 단계가 없으며, 트레이닝 이미지에 대한 HOG 기술자들이 메모리에 저장된다.

분류 성능

ALMKNN을 프레임워크로서 사용하여, 다양한 거리 측정값들, 즉 PBR, L_0.1, L_0.5, L₁, 및 L₂를 나란히 평가하였다. 본 발명의 분류 정확도는 6번 반복된 랜덤 서브샘플링 검증에 걸쳐 평균화되었으며, 이들 결과는 도 4에 도시된다. 흥미롭게도, PBR과 L₁은 정확도가 거의 동일하였으며, 다른 거리 측정의 성능보다 쉽게 우월해졌다. 유클리드 거리는, 작은 트레이닝 세트로 약간 더 양호한 성능을 낼 수 있었지만, 트레이닝 이미지들의 개수가 증가함에 따라 빠르게 사라졌다.

잡음의 효과:

PBR이 다른 거리 측정에 비해 잡음 열화에 더 저항력이 있는지를 테스트하기 위해, 트레이닝 이미지 및 테스트 이미지 모두를 밀도(d)가 증가하는 소금과 후추 잡음으로 손상시켰다. d=0일 때, PBR은 L₁을 제외한 모든 거리 측정값보다 상당히 우월하였다. 그러나, 본 가설과 일치하여, 최소량의 잡음(d=0.05)이 추가된 경우 PBR은 L₁을 포함한 모든 거리 측정보다 상당히 우수한 것으로 나타났다(표 1).

각 방법에 대한 곡선하 면적(AUC)은 6번 반복된 랜덤 서브샘플링 검증의 독립적 실행에 대하여 평균화되었다. 95% 신뢰도를 갖는 윌콕슨 부호 랭크 테스트(Wilcoxon signed-rank test)를 이용하여 다른 방법들과 PBR을 비교하였다. PBR보다 현저하게 나쁜 방법들은 별표(*)로 강조 표시되어 있다. 각 잡음 레벨에 대한 최고 AUC는 굵게 표시되어 있다.

계산 시간

Ubuntu 12.04 LTS를 실행하는 64비트 Intel Core i5-3470 CPU @ 3.20GHz 12GB RAM PC 시스템에서 계산 시간을 측정하였다.

표 2로부터, 본 발명의 GPU 구현은 순수 CPU 버전보다 약 2.6배 더 빠르다는 것을 알 수 있다. 이러한 속도 향상에 의해 PBR이 L₁ 및 L₂와 거의 비슷해진다. ALMKNN 분류자 앞의 단계로서 최근접 평균 분류자(NMC)(알고리즘 3)를 도입함으로써 계산 시간을 더욱 감소시켰다. 20%의 신뢰도 측정(confidence measure: CM)을 사용하였는데, 이는 중심들까지의 거리들 간의 콘트라스트가 20%를 초과할 때 NMC 결과를 분류에 사용하였음을 의미한다.

정확도 결과들은 정확히 같았지만, 계산 시간은 도 5에 도시한 바와 같이 크게 개선되었다.

귀 바이오메트릭 응용분야

바이오메트릭 기술은, 생리학적 또는 행동적 특성을 사용하여 개인의 신원을 검증하는 자동화된 방법들을 다룬다. 자동화된 바이오메트릭 분야는, 얼굴, 지문, 및 홍채 바이오메트릭 기술이 가장 보편적으로 구현된 방식으로서 등장하면서 지난 10년 동안 상당한 발전을 이루었다. 어떠한 단일 바이오메트릭 방식에도 단점이 존재한다. 예를 들어, 얼굴 바이오메트릭은, 광범위하게 연구되었지만, 아직도 차선의 조건에서 실패하기 쉽다([58], [59]).

지문은 이론상 고유한 서명을 제공하도록 충분히 복잡하지만, 실제로는, 지문 바이오메트릭은, 시스템이 젤라틴, 실리콘, 및 라텍스로 형성된 가짜 지문에 의한 공격에 취약하므로([60]), 위조 방지되지 않는다. 홍채 바이오메트릭은 매우 정확하고 신뢰할 수 있는 것으로 입증되었지만, 불량한 조명, 타겟 이동, 노화, 눈꺼풀의 부분적 폐쇄, 및 획득 인스턴스에 내한 민감도가 떨어지면, 성능이 급속히 저하된다. 이것은 더욱 확고한 바이오메트릭의 문제점을 극복할 수 있는 다른 특징들에 대한 연구에 동기를 부여한다. 이러한 새로운 특징들 중 하나인 귀 바이오메트릭은 여러 가지 이유로 인해 주목을 받고 있다.

1) 얼굴과 홍채와는 달리, 귀 형상은 십대와 성인의 생활에 있어서 크게 변하지 않는다. 모든 변화는 일반적으로 8세 전과 70세 후에 발생한다([61]).

2) 이미지 컨텍스트가 얼굴 측면을 참조하므로, 제어되는 환경은 귀 촬상에 필요하지 않다.

3) 귀 바이오메트릭은, 유전적으로 동일한 쌍둥이를 구별할 수 있지만, 얼굴 바이오메트릭은 이러한 점에서 실패한다([62]).

4) 귀에는 색의 분포가 더욱 균일하고 얼굴 표정에 대한 변동성이 적다.

본 발명의 양태들이 따르면, 전술한 바에 따라, HOG 특징부와 PBR에 기초하는 귀 인식 시스템을 제공한다. 사용된 데이터베이스는 IIT Delhi Ear Databases I 및 II이다([63]). IIT Delhi DB 1에는 125개의 서브젝트와 493개의 이미지가 있고, IIT Delhi DB 2에는 221개의 서브젝트와 793개의 이미지가 있다.

두 데이터베이스의 각 서브젝트에 대한 테스트 이미지를 랜덤하게 선택하고 나머지 이미지들은 트레이닝에 사용하였다.

바이오메트릭 분석 아키텍처

귀 인식 시스템에는 (1) 사전 처리, (2) 특징부 추출, 및 (3) 템플릿 매칭이라는 3개의 주요 단계가 있다. 히스토그램 등화는 사전처리 단계로서 사용될 수도 있다. 특징부 추출은 이미 전술한 바와 같을 수도 있다. 본 발명의 양태들에 따르면, 매칭 모듈은 트레이닝 이미지들 중 최근접 매칭을 검색할 수도 있다. 이러한 데이터베이스들의 이미지들은 50×180 픽셀들이고, 50×50 픽셀들로 리사이징되었다.

인식 성능

랭크-원 인식 정확도를 사용하여 성능을 평가하였다. 인식 결과는 10회에 걸쳐 평균화되었다. 모든 거리 측정에 대한 랭크-원 인식률의 평균과 표준 편차는 표 3에 나와 있다.

누적 매칭 곡선(CMC)은, 바이오메트릭 시스템의 성능을 측정하는 데 사용되며, 성능 검증의 맥락에서 수신기 작동 특성 곡선(ROC)과 직접적으로 관련이 있는 것으로 나타났다([64]). 따라서, 도 6의 모든 측정에 대한 CMC도 표시된다.

잡음 효과:

실험에서, 본 발명은 증가하는 밀도(d)의 소금 및 후추 잡음으로 인해 손상된 트레이닝 및 테스트 이미지들에 적용되었다. 비교는 도 7a 및 도 7b에 도시되어 있다. L₂를 제외한 모든 거리 측정값들은, 잡음 밀도(d)의 증가에 따라 급격히 저하되는 L₂ 성능을 갖는 잡음보다 안정적이라는 것을 알 수 있다.

PB _μ 와 거리 측정값 간의 상관:

정의된 테스트 이미지에 대한 다양한 거리 측정값들에 의해 매칭되는 이미지들의 랭크 정렬을 취함으로써, PB_μ와 다른 측정값(즉, PBR, L_0.1, L_0.5, L₁, L₂) 간의 상관을 취하였다. 표 4의 결과는, PBR과 PB_μ가 높은 상관 관계를 갖고 이러한 두 개의 거리 측정값 간의 랭크 순서가 거의 동일함을 나타낸다. 이는 대략 등가의 거리 측정값들인 PBR 및 PB_μ와 일치한다.

커널 기반 이미지 분류

PBR은, 서로 다른 입력(PRICoLBP, HOG)을 허용하고 또한 서로 다른 머신 러닝 프레임워크(KNN, SVM 커널) 내에서 동작하는 거리 메트릭이다.

서포트 벡터 머신(SVM)은 입력 데이터가 독립적이며 동일하게 분포되어야 함을 요구하지만, 음성 인식, 시스템 진단 등의 넌-i.i.d 상황에 성공적으로 적용된다([65]). 따라서, SVM 프레임워크는 이미지 분류에 있어서 PBR 거리의 효율성을 설명하도록 사용될 수도 있다. PBR을 SVM 프레임워크에 통합하기 위해, 다음에 따르는 RBF 커널의 일반화된 형태를 사용한다([66]):

여기서, ρ는 교차 검증을 사용하여 취득되는 스케일링 파라미터이고, d(X, Y)는 두 개의 히스토그램(X와 Y) 사이의 거리이다. 그 거리는 다음과 같이 약간 수정된 형태의 PBR을 사용하여 정의될 수도 있다.

정의. 두 개의 N차원 특징부 벡터인 X=(a₁, a₂, a₃, ..., a_N)와 Y=(b₁, b₂, b₃,..., b_N) 및 p_i=a_iIn(2a_i/(a_i+b_i))+b_iIn(2b_i/(a_i+b_i))가 주어진 경우, 그 두 개의 벡터 간의 거리는 아래와 같다:

.

PBR 커널은 d(X, Y)를 SVM 프레임워크 내에 치환하여 취득될 수도 있다.

실험

PBR 거리 커널의 성능은 텍스처 분류, 장면 분류, 종, 재료, 리프(leaf), 및 오브젝트 인식과 같은 6개의 서로 다른 응용 분야에서 평가되었다. 텍스처 데이터 세트는 Brodatz([67]), KTH-TIPS([68]), UMD([69]) 및 Kylberg([70])이다. 장면 분류 응용 분야는 Scene-15([71]) 데이터 세트를 기반으로 했다. 인식 작업을 위해, Leeds Butterfly([72]), FMD([73]), Swedish Leaf([74]), 및 Caltech-101([75]) 데이터 세트들이 사용되었다. 분류 및 인식 작업 모두에서는, 클래스당 트레이닝 이미지의 개수에 대한 성능의 의존도를 평가하였다. 각 데이터 세트에서, 테스트 이미지의 개수를 클래스당 50개로 제한한 Caltech-101 데이터 세트를 제외하고는, n개의 트레이닝 이미지를 랜덤하게 선택하고 나머지는 테스트용으로 남겼다. 모든 실험은 텍스처 데이터 세트에 대해 100번 반복되었고, 다른 데이터 세트에 대해서는 10번 반복되었다. 각 실행에 대해, 카테고리당 평균 정확도가 산출되었다. 이러한 개별적인 실행의 결과를 사용하여 평균 및 표준 편차를 최종 건과로서 보고하였다. 컬러 이미지들 사용할 수 있는 경우에도 모든 데이터 세트의 그레이스케일 강도 값들만 사용하였다.

다중 클래스 분류는 1개 대 나머지(one-vs-the-rest) 기술을 사용하여 수행되었다. 각 데이터 세트에 대해, C 및 감마와 같은 SVM 하이퍼-파라미터들은

및

를 사용한 트레이닝 세트의 교차 검증에 의해 선택되었다.

최근에, 쌍 회전 불변 동시 발생 국부 이진 패턴(Pairwise Rotation invariant Co-occurrence Local Binary Pattern: PRICoLBP) 특징부는 다양한 응용 분야들에서 효율적이고 효과적이라고 입증되었다([76]). 이 특징부의 중요한 속성은 회전 불변성 및 공간 컨텍스트 동시 발생 정보의 효과적인 캡처이다. 따라서, 이 특징부는 실험에 사용되었다.

텍스처 분류

Broclatz 앨범은 111개의 서로 다른 텍스처 클래스틀 포함하는 인기 있는 벤치마크 텍스처 데이터 세트이다. 각 클래스는 9개의 비중첩 서브이미지로 분할된 하나의 이미지를 포함한다.

KTH-TIPS 데이터 세트는 10개의 텍스처 클래스로 이루어지며, 클래스당 81개의 이미지가 있다. 이러한 이미지들은, 3개의 서로 다른 조명 방향과 3개의 서로 다른 포즈로 9개 스케일로 캡처되므로 높은 클래스내 변동성을 나타낸다.

UMD 텍스처 데이터 세트는 클래스당 40개의 샘플을 갖는 25개의 카테고리를 포함한다. 이러한 켈리브레이션되지 않은 미등록 이미지들은, 중요한 콘트라스트 차이와 함께 중요한 시점 및 스케일 변화로 캡처된다.

Kylberg 데이터 세트는, 클래스당 160개의 고유 샘플로 구성된 28개의 텍스처 클래스들 갖는다. 클래스들은 스케일, 조명, 및 방향성 면에서 균질하다. 데이터 세트의 '회전하지 않은' 텍스처 패치 버전을 사용하였다.

PRICoLBP의 2_a 템플릿 구성을 사용하여, 모든 데이터 세트에 대해 1180차원 특징부를 생성하였다. Brodatz, KTH-TIPS, UMD, 및 Kylberg 데이터 세트들 각각에 대한 실험 결과를 표 5, 6, 7, 및 8에 나타내었다. 그 결과로부터, PBR이 트레이닝 이미지의 개수가 적을 때 다른 방법들보다 지속적으로 우위에 있으며 분류 속도가 높을수록 다른 거리 측정값에 비해 표준 편차가 더욱 작음을 관찰한다.

리프 인식(Leaf Recognition)

스웨덴 리프 데이터 세트에는 스웨덴의 서로 다른 15개의 수종이 포함되어 있으며, 종당 75개의 이미지를 갖는다. 이러한 이미지들은 높은 클래스간 유사성과 높은 클래스내 기하학적 변동과 광도 변동을 나타낸다. 텍스처 데이터 세트와 동일한 PRICoLBP 구성을 사용하였다. 리프의 공간 레이아웃 사전 정보를 사용하지 않았다는 점에 주목해야 한다. 실험 결과는 표 9에 나타낸다. PBR이 다른 거리 측정보다 더욱 정확한 결과를 나타낸다는 점을 관찰한다.

재료 인식

플리커 재료 데이터베이스(FMD)는 재료 인식을 위해 최근 발표된 도전적인 벤치마크 데이터 세트이다. 이 데이터베이스의 이미지들은, 플리커 사진들 중에서 수동으로 선택되며, 각 이미지는 패브릭, 단풍, 유리, 가죽, 금속, 종이, 플라스틱, 돌, 물, 나무를 포함한 10개의 공통 재료 범주 중 하나에 속한다. 각 카테고리에는, 실세계 재료의 외관 변동을 캡처하는 100개의 이미지(50개의 클로즈업 뷰 및 50개의 오브젝트 레벨 뷰)가 포함된다. 따라서, 이러한 이미지들은 큰 클래스내 변동과 서로 다른 조명 조건들을 갖는다. 사실상, 이들은 오브젝트의 위치를 나타내는 세그멘테이션 마스크들에 연관된다. 이러한 마스크들은 오브젝트 영역들에서만 PRICoLBP를 추출하는 데 사용될 수도 있다. 구체적으로, 6-템플릿 구성은 3,540차원의 특징부 벡터를 산출하는 PRICoLBP에 사용될 수도 있다.

표 10은 FMD 데이터 세트의 클래스당 트레이닝 이미지들의 개수에 대한 인식률의 의존성을 나타낸다. Bhattacharyya 거리와 Jeffrey 발산이 후속하는 PBR 커널이 가장 잘 수행되는 것으로 관찰되었다.

표 11에서, PBR 커널은 다른 거리 측정 커널과 비교하여 모든 10개 카테고리 중 5개 카테고리에서 최고 성능을 나타낸다는 점에 주목한다.

장면 분류

Scene-15 데이터 세트는 층 4,485개의 이미지를 포함하며, 이러한 이미지는 이전의 여러 데이터 세트들의 조합이다([71], [77], [78]). 이 데이터 세트의 각 이미지는, 침실, 교외, 산업, 부엌, 거실, 해안, 숲, 고속도로, 내부 도시, 산, 개방된 지역, 거리, 고층 건물, 사무실, 및 상점을 포함한 15개 카테고리 중 하나에 속한다. 카테고리당 이미지들의 개수는 210 내지 410까지 다양하다. 이러한 이미지들은 해상도가 서로 다르므로, （종횡비를 유지하면서) 256 픽셀의 최소 치수를 갖도록 이미지들을 리사이징하였다.

PRICoLBP의 2_a 템플릿 구성을 사용했지만, 2개의 스케일(이웃들의 반경: 1, 2)을 사용하였다. 따라서 특징부 벡터의 차원은 2,360이다. 표 12는 다양한 개수의 트레이닝 이미지에 대한 서로 다른 방법들의 분류 결과를 나타낸다. PBR이 더욱 적은 개수의 트레이닝 이미지로 가장 잘 동작하고 클래스당 100개의 트레이닝 이미지로 비교할만한 성능을 나타냄을 관찰한다.

오브젝트 인식

Caltech-101 데이터 세트는 오브젝트 인식을 위한 중요한 벤치마크 데이터 세트이다. 이것은, 102개 카테고리(101개의 다양한 클래스와 하나의 배경 클래스) 아래에 9,144개의 이미지를 포함한다. 클래스당 이미지의 개수는 31에서 800까지 다양하다. 이러한 이미지들은 클래스내의 높은 변동을 나타내며, 또한, 크기도 다양하다. 따라서, 이미지들은 (종횡비를 유지하면서) 256 픽셀의 최소 치수로 리사이징되었다. PRICoLBP의 6 템플릿 구성을, 2개 스케일(이웃들의 반경: 1, 2)과 함께 사용하였으며, 이에 따라 7,080차원 특징부를 얻었다.

표 13은 트레이닝 이미지들의 다양한 개수에 대한 서로 다른 방법들의 인식 정확도를 나타낸다. PBR 거리 커널의 결과가 다른 거리 측정 기반 커널들에 비해 비교할만 것임을 관찰할 수 있다.

종 인식

Leeds Butterfly 데이터 세트는 10개 카테고리(종)의 나비에 대해 총 832개의 이미지로 이루어진다. 각 카테고리의 이미지 개수는 55 내지 100개이다. 이미지들은 조명, 자세, 및 치수면에서 다양하다. 이미지들은, (종횡비를 유지하면서) 256 픽셀의 최소 치수로 리사이징되었다. 텍스처 데이터 세트와 동일한 PRICoLBP 설정이 사용되었다. 표 14는, 트레이닝 이미지들의 개수가 가변적인 Leeds Butterfly 데이터 세트에 대한 서로 다른 방법들의 인식 정확도를 나타낸다. PBR 커널이 다른 거리 측정 기반 커널들과 비교하여 비교할만한 성능을 달성한다는 것을 관찰할 수 있다.

따라서, 많은 바람직한 실시예들을 도면을 참조하여 전술하였다. 본 발명의 양태들에 따르면, 이미지 인식 시스템의 계산 효율, 속도, 및 정확도를 개선할 수 있는 시스템 및 방법을 제공한다. 본 발명의 응용 분야는, 의학 진단 기계, DNA 서열분석 기계, 수술 로봇, 및 기타 영상 시스템 등의 의료 시스템을 포함한다. 다른 응용 분야로는, 지문 인식 시스템 또는 얼굴 인식 시스템 등의 생체 인식 서명 범죄 수사 시스템이 있다. 통상의 기술자는, 전술한 본 발명의 새롭고 유용한 다른 응용 분야들을 인식할 수도 있다.

본 발명은 이러한 바람직한 실시예들에 기초하여 기술되었지만, 통상의 기술자에게는, 본 발명의 사상 및 범위 내에서 설명된 실시예들에 대해 소정의 수정, 변형, 및 대안 구성을 행할 수 있다는 점이 명백할 것이다.

예를 들어, 사용자들은 예를 들면 사용자 프로파일에 의해 분류될 수 있고, 매칭을 특정된 사용자 프로파일을 갖는 사용자들로 한정될 수 있다.

참조문헌

이하의 공개적으로 입수 가능한 문헌들은 번호[#]로 위에서 참조되어 있고, 본 출원의 일부를 형성한다. 본 명세서에 참고로 편입되는 관련 내용은 참조문헌의 맥락과 방식으로부터 용이하게 이해될 것이다.

Claims

디지털 이미지를 분류하는 컴퓨터 구현 방법으로서,
호스트 컴퓨터로부터 상기 디지털 이미지에 대응하는 특징부 데이터(feature data)를 취득하는 단계;
그래픽 처리 유닛에 의해, 상기 호스트 컴퓨터의 메모리에 저장된 하나 이상의 참조 특징부 데이터(reference feature data)와 상기 특징부 데이터 간의 푸아송 이항 분포에 기초하여 세미-메트릭(semi-metric) 거리를 결정하는 단계; 및
결정된 상기 세미-메트릭 거리를 사용하여 상기 디지털 이미지를 분류하는 단계를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 세미-메트릭 거리는 푸아송 이항 반경(Poisson-Binomial Radius: PBR)인, 컴퓨터 구현 방법.
제1항에 있어서, 상기 디지털 이미지를 분류하는 단계는 서포트 벡터 머신(Support Vector Machine: SVM) 분류자를 사용하는 단계를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 디지털 이미지를 분류하는 단계는 k-최근접 이웃(k-nearest neighbors: kNN) 분류자를 사용하는 단계를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 kNN 분류자는 적응적 국부 평균(adaptive local mean) 기반 k-최근접 이웃(ALMkNN) 분류자이되, 상기 k-최근접 이웃의 값(k)은 적응적으로 선택되는, 컴퓨터 구현 방법.
제5항에 있어서, 상기 k-최근접 이웃의 적응값은 상기 하나 이상의 참조 데이터의 개수(number)의 제곱근을 초과하지 않는, 컴퓨터 구현 방법.
제1항에 있어서, 취득된 상기 특징부 데이터와 상기 하나 이상의 참조 특징부 데이터는, 쌍 회전 불변 동시발생 국부 이진 패턴(Pairwise Rotation invariant Co-occurrence Local Binary Pattern: PRICoLBP) 데이터를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 취득된 상기 특징부 데이터와 상기 하나 이상의 참조 특징부 데이터는 배향 그라디언트 히스토그램(Histogram of Oriented Gradients: HOG) 데이터를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 취득된 상기 특징부 데이터는 N차원 특징부 벡터 X(X = (a₁...a_N))를 포함하고, 상기 참조 특징부 데이터는 N차원 특징부 벡터 Y(Y = (b₁...b_N))를 포함하며, 그리고 상기 세미-메트릭 거리(PBR(X,Y))를 결정하는 단계는
를 산출하는 단계를 포함하고,
식 중, N은 0보다 큰 정수이고,
σ는 벡터 X의 표준 편차이며,
μ는 벡터 X의 평균(mean)이고, 그리고
P_i는 ｜a_i-b_i｜인, 컴퓨터 구현 방법.
제1항에 있어서, 상기 디지털 이미지는 DNA 또는 RNA 서열에 대응하는 정보를 포함하고, 취득된 상기 특징부 데이터는, 서열분석 깊이 d_x를 갖는 제1 DNA 샘플에 대한 서열분석 품질 근접성의 벡터 X(X = (x₁...x_dx))를 포함하며, 상기 참조 특징부 데이터는, 서열분석 깊이 d_y를 갖는 참조 DNA 샘플에 대한 서열분석 확률의 벡터 Y(Y = (y₁...y_dy))를 포함하고,
상기 세미-메트릭 거리(PBR_seq)를 결정하는 단계는
를 산출하는 단계를 포함하며,
식 중, μ_X는 벡터 X에 대한 평균이고,
μ_Y는 벡터 Y에 대한 평균이며,
σ_X는 벡터 X에 대한 표준 편차이고, 그리고
σ_Y는 벡터 Y에 대한 표준 편차인, 컴퓨터 구현 방법.
제10항에 있어서, 상기 디지털 이미지를 분류하는 단계는,
상기 세미-메트릭 거리(PBR_seq)가 임계값보다 큰지를 결정하는 단계; 및
상기 세미-메트릭 거리(PBR_seq)가 상기 임계값보다 큰지에 대한 결정에 기초하여 상기 DNA 또는 RNA 서열을 종양 또는 정상으로 분류하는 단계를 포함하는, 컴퓨터 구현 방법.
제10항에 있어서, 상기 디지털 이미지를 분류하는 단계는 상기 DNA 또는 RNA 서열의 희귀 변이체를 식별하는 단계를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 하나 이상의 참조 특징부 데이터 중 최근접 매칭 참조 특징부 데이터를 결정하는 단계를 더 포함하는, 컴퓨터 구현 방법.
제13항에 있어서, 결정된 상기 최근접 매칭 참조 특징부 데이터에 기초하여 사람을 식별하는 단계를 더 포함하되, 상기 디지털 이미지는 귀, 얼굴, 지문, 및 홍채 중 적어도 하나를 포함하는, 컴퓨터 구현 방법.
디지털 이미지를 분류하는 시스템으로서,
프로세서를 포함하고, 하나 이상의 참조 특징부 데이터를 포함하는 메모리에 결합된 호스트 컴퓨터; 및
상기 호스트 컴퓨터에 결합되고, 프로세서를 포함하는 그래픽 처리 유닛(GPU)을 포함하되,
상기 GPU는,
상기 호스트 컴퓨터로부터 상기 디지털 이미지에 대응하는 특징부 데이터를 취득하고,
상기 메모리로부터 상기 하나 이상의 참조 특징부 데이터에 액세스하고,
상기 특징부 데이터와 상기 하나 이상의 참조 특징부 데이터 간의 푸아송 이항 분포에 기초하여 세미-메트릭 거리를 결정하도록 구성되고,
상기 호스트 컴퓨터는, 결정된 상기 세미-메트릭 거리를 사용하여 상기 디지털 이미지를 분류하도록 구성된, 디지털 이미지를 분류하는 시스템.
제15항에 있어서, 상기 세미-메트릭 거리는 푸아송 이항 반경(PBR)인, 디지털 이미지를 분류하는 시스템.
제15항에 있어서, 상기 호스트 컴퓨터는, 서포트 벡터 머신(SVM) 분류자를 사용하여 상기 디지털 이미지를 분류하도록 더 구성되는, 디지털 이미지를 분류하는 시스템.
제15항에 있어서, 상기 호스트 컴퓨터는, k-최근접 이웃(kNN) 분류자를 사용하여 상기 디지털 이미지를 분류하도록 더 구성되는, 디지털 이미지를 분류하는 시스템.
제18항에 있어서, 상기 kNN 분류자는 적응적 국부 평균 기반 k-최근접 이웃(ALMkNN) 분류자이고, 상기 k-최근접 이웃의 값(k)은 적응적으로 선택된, 디지털 이미지를 분류하는 시스템.
제19항에 있어서, 상기 k-최근접 이웃의 적응값은 상기 하나 이상의 참조 데이터의 개수의 제곱근을 초과하지 않는, 디지털 이미지를 분류하는 시스템.
제15항에 있어서, 상기 특징부 데이터와 상기 하나 이상의 참조 특징부 데이터는 쌍 회전 불변 동시발생 국부 이진 패턴(PRICoLBP) 데이터를 포함하는, 디지털 이미지를 분류하는 시스템.
제15항에 있어서, 취득된 상기 특징부 데이터와 상기 하나 이상의 참조 특징부 데이터는 배향 그라디언트 히스토그램(HOG) 데이터를 포함하는, 디지털 이미지를 분류하는 시스템.
제15항에 있어서, 상기 특징부 데이터는 N차원 특징부 벡터 X(X = (a₁...a_N))를 포함하고, 상기 참조 특징부 데이터는 N차원 특징부 벡터 Y(Y = (b₁...b_N))를 포함하고,
상기 GPU는,
를 산출하도록 더 구성되되,
식 중, PBR(X, Y)은 상기 벡터 X와 상기 벡터 Y 간의 푸아송 이항 반경(PBR) 거리이고,
N은 0보다 큰 정수이며,
σ는 상기 벡터 X의 표준 편차이고,
μ는 상기 벡터 X의 평균이며, 그리고
P_i는 ｜a_i-b_i｜인, 디지털 이미지를 분류하는 시스템.
제15항에 있어서, 상기 디지털 이미지는 DNA 또는 RNA 서열에 대응하는 정보를 포함하고, 상기 특징부 데이터는, 서열분석 깊이 d_x를 갖는 제1 DNA 샘플에 대한 서열분석 품질 근접성의 벡터 X(X = (x₁...x_dx))를 포함하고, 상기 참조 특징부 데이터는, 서열분석 깊이 d_y를 갖는 참조 DNA 샘플에 대한 서열분석 확률의 벡터 Y(Y = (y₁...y_dy))를 포함하고,
상기 GPU는, 상기 세미-메트릭 거리(PBR_seq)인
를 결정하는 것을 산출하도록 더 구성되되,
식 중, PBR_seq(X, Y)는 상기 벡터 X와 상기 벡터 Y 간의 푸아송 이항 반경(PBR) 거리이고,
μ_X는 상기 벡터 X에 대한 평균이며,
μ_Y는 상기 벡터 Y에 대한 평균이고,
σ_X는 상기 벡터 X에 대한 표준 편차이며, 그리고
σ_Y는 상기 벡터 Y에 대한 표준 편차인, 디지털 이미지를 분류하는 시스템.
제24항에 있어서, 상기 호스트 컴퓨터는,
상기 세미-메트릭 거리(PBR_seq)가 임계값보다 큰지를 결정하고; 그리고
상기 세미-메트릭 거리(PBR_seq)가 상기 임계값보다 큰지에 대한 결정에 기초하여 상기 DNA 또는 RNA 서열을 종양 또는 정상으로 분류하도록 더 구성되는, 시스템.
제24항에 있어서, 상기 호스트 컴퓨터는, 상기 DNA 또는 RNA 서열의 희귀 변이체를 식별하도록 더 구성된, 디지털 이미지를 분류하는 시스템.
제15항에 있어서, 상기 호스트 컴퓨터는, 상기 하나 이상의 참조 특징부 데이터 중 최근접 매칭 참조 특징부 데이터를 결정도록 더 구성되는, 디지털 이미지를 분류하는 시스템.
제27항에 있어서, 상기 호스트 컴퓨터는, 결정된 상기 최근접 매칭 참조 특징부 데이터에 기초하여 사람을 식별하도록 더 구성되되, 상기 디지털 이미지는 귀, 얼굴, 지문, 및 홍채 중 적어도 하나를 포함하는, 디지털 이미지를 분류하는 시스템.