KR101727438B1

KR101727438B1 - 가변형 표현 검출기

Info

Publication number: KR101727438B1
Application number: KR1020167000564A
Authority: KR
Inventors: 미헬 아딥 자르키스; 마그디 아부엘가심 모하메드; 잉용 치
Original assignee: 퀄컴 인코포레이티드
Priority date: 2013-06-28
Filing date: 2014-06-12
Publication date: 2017-04-14
Also published as: KR20160009709A; WO2014209628A2; WO2014209628A3; EP3014521A2; JP6309549B2; US9141851B2; CN105308625A; US20150003672A1; CN105308625B; JP2016525726A

Abstract

가변형 표현 검출을 위한 방법이 개시되어 있다. 프리프로세싱된 이미지에서의 각각의 픽셀에 대해, 제 1 방향성 구배 성분의 부호 및 제 2 방향성 구배 성분의 부호가 결합되어 결합된 부호가 생성된다. 각각의 결합된 부호는 코딩된 값으로 코딩된다. 입력 이미지에서의 표현은 코딩된 값들에 기초하여 검출된다.

Description

가변형 표현 검출기{DEFORMABLE EXPRESSION DETECTOR}

관련 출원들

본 출원은 2013년 6월 28일 출원되고 발명의 명칭이 "DEFORMABLE EXPRESSION DETECTOR" 인 미국 특허 가출원 일련번호 제61/840,687호에 관련되며 이를 우선권으로 주장한다.

기술 분야

본 개시물은 일반적으로 전자 디바이스들에 관한 것이다. 보다 구체적으로, 본 개시물은 가변형 표현 검출기에 관한 것이다.

수십 년간, 전자 디바이스들의 이용이 일반화되었다. 특히, 전자 기술의 진보들은 점점 더 복잡하고 유용한 전자 디바이스들의 비용을 감소시켰다. 비용 감소 및 소비자 요구는 전자 디바이스들의 이용을 급증시켰으며, 전자 디바이스들은 현대 사회에서 사실상 유비쿼터스화되어 있다. 전자 디바이스들의 이용이 확대됨에 따라, 전자 디바이스들의 새롭고 개선된 특징들에 대한 요구도 확대되었다. 보다 구체적으로, 새로운 기능들을 수행하고/하거나 기능들을 더 고속으로, 더 효율적으로 또는 더 높은 품질로 수행하는 전자 디바이스들이 종종 추구된다.

일부 전자 디바이스들 (예를 들어, 카메라들, 비디오 캠코더들, 디지털 카메라들, 셀룰라 폰들, 스마트 폰들, 컴퓨터들, 텔레비젼들 등) 은 이미지를 캡쳐하거나 이용한다. 예를 들어, 디지털 카메라는 디지털 이미지를 캡쳐할 수도 있다.

전자 디바이스들의 새롭고 및/또는 진보된 피쳐들이 종종 추구된다. 이 설명으로부터 알 수 있는 바와 같이, 전자 디바이스들의 새롭고 및/또는 개선된 피쳐들을 추가하는 시스템들 및 방법들이 바람직할 수도 있다.

가변형 표현 검출을 위한 방법이 설명되어 있다. 프리프로세싱된 이미지에서의 각각의 픽셀에 대해, 제 1 방향성 구배 성분의 부호 및 제 2 방향성 구배 성분의 부호가 결합되어 결합된 부호가 생성된다. 각각의 결합된 부호는 코딩된 값으로 코딩된다. 입력 이미지에서의 표현은 코딩된 값들에 기초하여 검출된다.

입력 이미지는 프리프로세싱되어, 프리프로세싱된 이미지가 생성될 수도 있다. 입력 이미지는 관심 영역 (ROI) 에 기초하여 정렬될 수도 있다. 입력 이미지에서의 ROI 는 크롭핑될 수도 있다. ROI 는 스케일링될 수도 있다. ROI 의 히스토그램은 평활화될 수도 있다.

방향성 구배 성분들은 정규 직교성일 수도 있다. 방향성 구배 성분들은 수직 및 수평 방향성 구배 성분들 또는 45 도 및 135 도 방향성 구배 성분들일 수도 있다.

코딩은 방향성 구배 성분들의 크기의 값을 결정함이 없이 방향성 구배 성분들의 부호들에 기초하여 각각의 결합된 부호를 코딩된 값으로 코딩하는 것을 포함할 수도 있다.

표현은 웃음, 깜박임, 또는 화남을 포함할 수도 있다. 표현을 검출하는 것은 머신 학습 알고리즘을 이용하여 피쳐 벡터를 분류하는 것을 포함할 수도 있다. 머신 학습 알고리즘은 SVM (Support Vector Machines) 알고리즘, 부스팅 알고리즘 (boosting algorithm) 또는 KNN (K-Nearest Neighbors) 알고리즘이다.

분류 에러는 업데이트될 수도 있다. 입력 이미지는 표현을 포함하거나 또는 포함하지 않는 것으로 분류될 수도 있다. 입력 이미지의 오분류가 검출될 수도 있다. 분류자는 오분류에 기초하여 업데이트될 수도 있다. 오분류를 검출하는 것은 사용자에게 입력 이미지 및 분류를 제시하는 것을 포함할 수도 있다. 사용자는 분류가 정확한지를 물을 수도 있다. 분류가 정확한지의 여부에 대한 사용자 입력이 수신될 수도 있다. 오분류를 검출하는 것은 분류 후에 사용자에 의한 입력 이미지의 삭제에 기초하여 분류가 정확하지 않다고 결정하는 것을 포함할 수도 있다. 업데이트하는 것은 입력 이미지를 분류하는데 이용되는 분류자의 유형에 기초할 수도 있다. 분류자는 머신 학습 알고리즘을 이용할 수도 있다.

결정 임계가 조정될 수도 있다. 입력 이미지는 표현을 포함하거나 또는 포함하지 않는 것으로 분류될 수도 있다. 입력 이미지의 오분류가 검출될 수도 있다. 표현에 대한 결정 임계는 수동으로 또는 오분류에 기초하여 조정될 수도 있다. 오분류를 검출하는 것은 사용자에게 입력 이미지 및 분류를 제시하는 것을 포함할 수도 있다. 사용자는 분류가 정확한지를 물을 수도 있다. 분류가 정확한지의 여부에 대한 사용자 입력이 수신될 수도 있다. 오분류를 검출하는 것은 분류 후에 사용자에 의한 입력 이미지의 삭제에 기초하여 분류가 정확하지 않다고 결정하는 것을 포함할 수도 있다. 조정하는 것은 입력 이미지를 분류하는데 이용되는 분류자의 유형에 기초할 수도 있다. 표현에 대한 결정 임계를 수동으로 조정하는 것은 스크린 상에서 바를 슬라이딩하는 것에 의해 임계를 조정하는 옵션을 사용자에게 제공하는 슬라이딩 바를 보여주는 것 또는 값을 수동으로 입력하는 것을 포함할 수도 있다. 분류하는 것은 머신 학습 알고리즘을 이용하여 피쳐 벡터를 분류하는 것을 포함할 수도 있다.

가변형 표현 검출을 위한 장치가 또한 기술되어 있다. 본 장치는 프로세서, 프로세서와 전자 통신하는 메모리, 및 메모리에 저장된 명령들을 포함한다. 프리프로세싱된 이미지에서의 각각의 픽셀에 대해, 제 1 방향성 구배 성분의 부호 및 제 2 방향성 구배 성분의 부호가 결합되어 결합된 부호가 생성된다. 각각의 결합된 부호는 코딩된 값으로 코딩된다. 입력 이미지에서의 표현은 코딩된 값들에 기초하여 검출된다.

가변형 표현 검출을 위한 장치가 또한 기술되어 있다. 장치는 프리프로세싱된 이미지에서의 각각의 픽셀에 대해, 결합된 부호를 생성하기 위해, 제 1 방향성 구배 성분의 부호 및 제 2 방향성 구배 성분의 부호를 결합하는 수단을 포함한다. 장치는 또한 각각의 결합된 부호를 코딩된 값으로 코딩하는 수단을 포함한다. 장치는 또한 코딩된 값들에 기초하여 입력 이미지에서 표현을 검출하는 수단을 포함한다.

가변형 표현 검출을 위한 컴퓨터 프로그램 제품이 또한 기술되어 있다. 컴퓨터 프로그램 제품은 명령들을 지닌 비일시적 컴퓨터 판독가능 매체를 포함한다. 명령들은 전자 디바이스로 하여금, 프리프로세싱된 이미지에서의 각각의 픽셀에 대해, 결합된 부호를 생성하기 위해, 제 1 방향성 구배 성분의 부호 및 제 2 방향성 구배 성분의 부호를 결합하게 하는 코드를 포함한다. 명령들은 또한, 전자 디바이스로 하여금, 각각의 결합된 부호를 코딩된 값으로 코딩하게 하는 코드를 포함한다. 명령들은 전자 디바이스로 하여금, 코딩된 값들에 기초하여 입력 이미지에서 표현을 검출하게 하는 코드를 더 포함한다.

도 1 은 가변형 표현 검출을 위한 전자 디바이스를 예시하는 블록도이다.
도 1a 는 프로세서에 의해 구현되는 도 1 의 시스템 내에서의 일부 컴포넌트들을 예시한다.
도 2 는 가변형 표현 검출 모듈을 예시하는 블록도이다.
도 3 은 변경된 에지 히스토그램 디스크립터 (mEHD; modified edge histogram descriptor) 에 따른 가변형 표현 검출을 위한 방법을 예시하는 흐름도이다.
도 4 는 에지 히스토그램 디스크립터 (EHD; edge histogram descriptor) 에 따라 피쳐 벡터를 구성하는 방법을 예시하는 흐름도이다.
도 5 는 EHD 에 따라 피쳐 벡터를 계산하는 일 예를 예시하는 도면이다.
도 6 은 변경된 에지 히스토그램 디스크립터 (mEHD; modified edge histogram descriptor) 에 따라 피쳐 벡터를 구성하는 방법을 예시하는 흐름도이다.
도 7 은 방향성 구배 성분들의 결합된 부호들을 코딩하는 일 예를 예시하는 도면이다.
도 8 은 mEHD 에 따라 피쳐 벡터를 계산하는 일 예를 예시하는 도면이다.
도 9 는 이미지를 프리프로세싱하는 방법을 예시하는 흐름도이다.
도 10 은 분류 에러를 업데이트하는 방법을 예시하는 흐름도이다.
도 11 은 결정 임계를 조정하는 방법을 예시하는 흐름도이다.
도 12 는 전자 디바이스/무선 디바이스 내에 포함될 수도 있는 특정 컴포넌트들을 예시한다.

가변형 표현은 여러 감정들, 분위기들, 액션들 또는 정신적 상태들, 이를 테면, 행복, 슬픔, 공포감, 및 즐거움을 표시할 수도 있다. 일부 구성들에서, 표현들은 인간의 안면 또는 제스쳐들로부터 캡쳐될 수도 있다. 감정들 또는 정신적 상태들은 휴먼 머신 인터페이스, 상호작용형 게이밍, 환자 모니터링 및 그 이상의 것을 포함할 수도 있는 애플리케이션들에 대해 관련될 수도 있다. 실제로, 인물 사진 또는 자기 인물 사진 이미지에 있어서 사람이 실제로 표현 (웃는 것, 눈을 뜨는 것 등) 을 수행하는 순간까지를 셔터가 대기할 수 있기 때문에, 표현을 검출하는 것은 카메라들 또는 스마트폰들로 사진을 찍는 것과 같은 단순 애플리케이션들을 더욱 단순하게 만들 수도 있다.

표현 검출은 컴퓨터 비젼에서의 활발한 연구 분야이다. 표현 검출을 위해, 관심 객체 (이를 테면, 인간의 안면) 를 포함하는 이미지가 먼저 검출된다. 그 후, 랜드마크들 (예를 들어, 안면에서의 눈들) 이 위치결정된다. 이들 랜드마크들에 기초하여, 이미지가 회전, 크롭핑, 및 스케일링될 수 있다. 이미지 피쳐들이 추출될 수도 있다. 트레이닝된 분류자는 표현의 상태를 결정하기 위해 추출된 피쳐들에 적용될 수도 있다. 예를 들어, 분류자는 웃지 않는 상태로부터 웃는 상태를 또는 감은 눈들로부터 뜬 눈을 검출할 수도 있다.

웃음 검출 또는 깜박인 눈 검출은 안면 표현의 예들임을 주지해야 한다. 그러나, 본 시스템들 및 방법들은 안면 표현들을 검출하는 것으로 제한되지 않는다. 따라서, 여기에 설명된 시스템들 및 방법들은 임의의 가변형 표현을 검출하는데 이용될 수도 있다. 여기에 이용된 용어 "가변형 표현" 은 시간에 따른 인간, 동물, 또는 사물의 형상 (또는 형태) 에서의 변화를 지칭한다. 따라서, 가변형 표현은 인간, 동물 또는 사물 제스쳐들을 포함할 수도 있다. 가변형 표현들의 예들은 안면 표현들, 이를 테면, 웃는 것, 깜박이는 것, 화난 것 또는 슬픈 것을 포함한다. 가변형 표현의 다른 예들은 비안면 표현들, 이를 테면, 피사체가 런닝하는지의 여부를 포함한다.

본 시스템 및 방법들은 방향성 구배 성분들의 크기 및 부호들에 기초하여 피쳐 추출에 대한 에지 히스토그램 디스크립터 (EHD) 를 이용할 수도 있다. 또한, 방향성 구배 성분들의 부호들에 기초하여 피쳐 추출을 위한 EHD 의 변경된 버전이 이용될 수도 있다. 이 변경된 에지 히스토그램 디스크립터 (mEHD) 는 이것이 하드웨어 친화적이고 소형 사이즈를 갖는 점에서 이점들을 제공할 수도 있다.

분류 에러를 제한하기 위해, 본 시스템들 및 방법들은 또한, 전체 표현 검출 메카니즘에 하나 이상의 피드백 유닛들을 통합시킬 수도 있다. 제 1 피드백 유닛은 상호작용 사용자 인터페이스 (UI) 일 수도 있다. 이 제 1 피드백 유닛은 검출된 이미지들로부터 에러들을 검출하거나, 또는 이산적인 시점들에서 또는 랜덤하게 사용자에게 정확도에 대해 문의함으로써 오분류된 표현들을 검출할 수도 있다. 그 후, 제 1 피드백 유닛은 검출된 에러에 기초하여 분류 알고리즘을 자동으로 업데이트할 수도 있다. 제 2 피드백 유닛은 또한 상호작용 UI 일 수도 있다. 제 2 피드백 유닛은 사용자에게 맞추어지도록 하는 방식으로 결정 임계를 조정하는 옵션을 사용자에게 제공할 수도 있다.

도 1 은 가변형 표현 검출을 위한 전자 디바이스 (102) 를 예시하는 블록도이다. 전자 디바이스 (102) 는 또한 무선 통신 디바이스, 모바일 디바이스, 모바일 스테이션, 가입자 스테이션, 클라이언트, 클라이언트 스테이션, 사용자 장비 (UE), 원격 스테이션, 액세스 단말기, 모바일 단말기, 단말기, 사용자 단말기, 가입자 유닛 등을 지칭할 수도 있다. 전자 디바이스 (102) 의 예들은 랩탑 컴퓨터 또는 데스크탑 컴퓨터, 셀룰러 폰들, 스마트 폰들, 무선 모뎀들, e-리더들, 태블릿 디바이스들, 게이밍 시스템들 등을 포함한다. 이들 디바이스들 중 일부는 하나 이상의 산업 표준들에 따라 동작할 수도 있다.

전자 디바이스 (102), 이를 테면, 스마트폰 또는 태블릿 컴퓨터는 카메라를 포함할 수도 있다. 카메라는 이미지 센서 (104) 및 광학 시스템 (106) (예를 들어, 렌즈들) 을 포함할 수도 있고, 광학 시스템은 광학 시스템 (106) 의 시야 내에 위치된 객체들의 이미지들을 이미지 센서 (104) 상에 포커싱한다. 전자 디바이스 (102) 는 또한 디스플레이 스크린 및 카메라 소프트웨어 애플리케이션을 포함할 수도 있다. 카메라 애플리케이션이 구동중에 있을 때, 광학 시스템 (106) 의 시야 내에 위치된 객체들의 이미지들이 이미지 센서 (104) 에 의해 기록될 수도 있다. 이미지 센서 (104) 에 의해 기록된 이미지들은 디스플레이 스크린 상에 디스플레이될 수도 있다. 이들 이미지들은 비교적 높은 프레임 레이트에서 고속으로 연속하여 디스플레이될 수도 있어, 임의의 주어진 시간의 순간에 광학 시스템 (106) 의 시야 내에 위치된 객체들이 디스플레이 스크린 상에 디스플레이되게 된다. 본 시스템들 및 방법들이 캡쳐된 비디오 프레임들의 관점에서 설명되어 있지만, 여기에 설명된 기법들은 임의의 디지털 이미지에 대해 이용될 수도 있다. 따라서, 용어 비디오 프레임 및 디지털 이미지는 여기에서 상호교환적으로 이용될 수도 있다.

카메라 애플리케이션의 사용자 인터페이스 (110) 는 사용자가 가변형 표현 검출 모듈 (112) 과 상호작용하는 것을 허용할 수도 있다. 예를 들어, 사용자는 터치스크린 (108) 을 이용함으로써 가변형 표현 검출 모듈 (112) 과 상호작용할 수도 있다. 일 구성에서, 가변형 표현 검출 모듈 (112) 은 입력 이미지를 프리프로세싱하고, 이미지로부터 피쳐 벡터를 추출하고, 이미지를 특정 표현을 포함하는 것으로서 또는 포함하지 않는 것으로서 분류할 수도 있다.

피쳐 벡터를 획득하기 위해, 본 시스템들 및 방법들은 입력 이미지에서의 피쳐들을 검출하기 위해 에지 히스토그램 디스크립터 (EHD) 를 이용할 수도 있다. EHD 는 이미지의 방향성 구배 성분들의 크기 및 부호를 연산하는 것을 포함할 수도 있다. 추가로, 본 시스템은 또한, 실제 값들 (예를 들어, 크기 및 부호) 보다는, 이미지의 방향성 구배 성분들의 부호만을 연산하는 것을 포함할 수도 있는 변경된 EHD (mEHD) 를 이용할 수도 있다. 이 최적화는 EHD 에 비교할 때 정확도를 유지하면서 보다 적은 자원들을 이용할 수도 있다.

또한, 가변형 표현 검출 모듈 (112) 은 분류를 적응시키도록 두개의 피드백 유닛들을 포함할 수도 있다. 특히, 제 1 피드백 유닛은 분류 알고리즘을 업데이트할 수도 있고, 제 2 피드백 유닛은 삭제된 이미지들로부터 인식된 오분류에 기초하거나 또는 사용자 입력에 기초하여 결정 임계를 시프트할 수도 있다.

도 1a 에 도시된 바와 같이, 가변형 표현 검출 모듈 (112) 은 프로세서 (101) 에 의해 구현될 수도 있다. 대안으로서, 상이한 프로세서들이 상이한 컴포넌트들을 구현할 수도 있다 (예를 들어, 하나의 프로세서가 이미지를 프로세싱할 수도 있고, 다른 프로세서가 피쳐 벡터를 획득하는데 이용될 수도 있고, 또 다른 프로세서가 표현을 분류하는데 이용될 수도 있다).

도 2 는 가변형 표현 검출 모듈 (212) 을 예시하는 블록도이다. 가변형 표현 검출 모듈 (212) 은 프리프로세서 (216), 피쳐 추출기 (228) 및 분류자 (232) 를 포함할 수도 있다. 프리프로세서 (216) 는 입력 이미지 (214) 를 수신할 수도 있고, 원하는 관심 영역 (ROI) 을 강조하는 ROI 이미지 (226) 를 생성할 수도 있다. 입력 이미지 (214) 는 카메라 (예를 들어, 이미지 센서 (104) 및 광학 시스템 (106)) 로부터 수신될 수도 있다. 입력 이미지 (214) 는 또한 메모리로부터 수신될 수도 있다. 일부 구성들에서, ROI 는 피사체의 안면일 수도 있다. 그러나, ROI 는 입력 이미지 (214) 내의 임의의 영역일 수도 있음을 주지해야 한다.

프리프로세서 (216) 는 ROI 에 대하여 입력 이미지 (214) 를 정렬시키는 얼라이너 (218) 를 포함할 수도 있다. 예를 들어, 얼라이너 (218) 는 안면에서의 눈들이 수평선 상에 있도록 안면을 정렬시킬 수도 있다.

프리프로세서 (216) 는 또한, 정렬된 입력 이미지 (214) 를 크롭핑하는 크롭퍼 (220) 를 포함할 수도 있다. 크롭퍼 (220) 는 입력 이미지 (214) 로부터 비-ROI 부분들을 제거할 수도 있다. 예를 들어, 크롭퍼 (220) 는 입력 이미지 (214) 로부터 비안면 영역들을 제거할 수도 있다.

프리프로세서 (216) 는 또한, 비교 목적들을 위하여, 입력 이미지 (214) 를 스케일링하는 스케일러 (222) 를 포함할 수도 있다. 예를 들어, 스케일러 (222) 는 미리 정의된 사이즈로 안면 영역을 스케일링할 수도 있다.

추가로, 프리프로세서 (216) 는 입력 이미지 (214) 의 히스토그램을 평활화 또는 정규화하기 위해 히스토그램 평활화기 (224) 를 포함할 수도 있다. 예를 들어, 히스토그램 평활화기 (224) 는 입력 이미지 (214) 에서의 조명 편차를 극복할 수도 있다.

프리프로세서 (216) 는 ROI 이미지 (226) 를 출력할 수도 있다. ROI 이미지 (226) 는 정렬되어 미리 정의된 사이즈로 스케일링된 후, 입력 이미지 (214) 로부터 크롭핑된 ROI 를 포함할 수도 있다. ROI 로서 안면을 이용한 예시적인 프리프로세싱 시나리오는 도 9 와 연관되어 아래 설명되어 있다. 일 구성에서, ROI 이미지 (226) 에서의 픽셀들의 값들은 ROI 에 기초하여 오리지널 입력 이미지 (214) 의 변경된 버전일 수도 있다.

피쳐 추출기 (228) 는 ROI 이미지 (226) 를 수신할 수도 있고, 피쳐 벡터 (230) 를 생성할 수도 있다. 일 구성에서, 피쳐 추출기 (228) 는 에지 히스토그램 디스크립터 (EHD) 또는 변경된 버전의 EHD (mEHD) 를 이용하여 입력 이이미지 (214) 에 대한 피쳐 벡터 (230) 를 획득할 수도 있다. EHD 는 에지 분포를 표시할 수도 있고 mEHD 는 입력 이미지 (214) 에서의 에지 분포의 부호를 표시할 수도 있다.

일 구성에서, 피쳐 추출기 (228) 는 ROI 이미지 (226) 에 기초하여 방향성 구배 이미지들을 생성할 수도 있다. 방향성 구배 이미지는 방향성 구배 성분들에 기초할 수도 있다. 일 구성에서, ROI 이미지 (226) 의 여러 방향에서의 구배들 (예를 들어, 방향성 구배 성분들) 이 연산될 수도 있다. 이는 도 4 와 연관되어 아래 설명된 바와 같이 완성될 수도 있다.

EHD 에서, 피쳐 추출기 (228) 는 방향성 구배 이미지들에서의 크기들 및 부호들에 기초하여 피쳐 벡터 (230) 를 구성할 수도 있다. 예를 들어, 피쳐 벡터 (230) 는 각각의 방향성 구배 이미지를 셀들로 분할하고, 각각의 셀에서의 픽셀들의 방향성 구배 성분들의 공간 히스트로그램을 계산함으로써, 연산될 수도 있다. 셀들은 또한 블록들, 패치들, 또는 서브이미지들로서 지칭될 수도 있다. 각각의 방향성 구배 이미지의 세부 분할은 비오랩 그리드들, 균일한 오버랩 그리드들, 불균일 비오버랩 그리드들 또는 불균일 오버랩 그리드들의 셀들에 있을 수 있다. 셀들의 수 및 유형은 표현 검출 애플리케이션의 복잡도에 의존할 수도 있다.

셀들에서의 에지들은 방향성 구배 성분들의 크기 및 부호에 기초하여 결정될 수도 있다. 각각의 셀에서의 에지들은 여러 유형들로 분류될 수도 있다. 예를 들어, 에지들은 수직, 수평, 45 도, 135 도, 또는 다른 배향으로서 분류될 수도 있다. 에지들은 또한 비방향성으로서 분류될 수도 있다. 공간 히스토그램은 각각의 셀에서의 에지들 및 비에지들을 카운팅함으로써 생성될 수도 있다. EHD 피쳐 벡터 (230) 는 각각의 방향성 구배 이미지의 공간 히스토그램들을 결합함으로써 구성될 수도 있다. EHD 에 따라 피쳐 벡터 (230) 를 구성하는 일 예는 도 4 와 연관되어 설명된다.

mEHD 에서, 피쳐 추출기 (228) 는 방향성 구배 이미지에서의 부호들에 기초하여 피쳐 벡터 (230) 를 구성할 수도 있다. 예를 들어, 피쳐 추출기 (228) 는 ROI 이미지 (226) 의 각각의 픽셀에 대해 결합된 부호들을 생성하기 위해 방향성 구배 이미지들의 방향성 구배 성분들의 부호들을 결합할 수도 있다. 그 후, 피쳐 추출기 (228) 는 각각의 결합된 부호를 코딩된 값으로 코딩할 수도 있다. ROI 이미지 (226) 의 코딩된 값들은 셀들로 분할될 수도 있다. 공간 히스토그램은 각각의 셀에서 코딩된 값들 각각을 카운팅함으로써 생성될 수도 있다. mEHD 피쳐 벡터 (230) 는 공간 히스토그램으로부터 구성될 수도 있다. mEHD 에 따라 피쳐 벡터 (230) 를 구성하는 일 예는 도 6 과 연관되어 설명된다.

EHD 및 mEHD 의 사용은 다른 방법들 (이를 테면, PCA (Principal Component Analysis) 또는 LBP (Local Binary Patterns) 또는 HOG (Histogram of Oriented Gradients)) 에 의해 생성된 피쳐 벡터들 (230) 에 비해, 감소된 계산 복잡도와 더 낮은 차원의 피쳐 벡터 (230) 를 가져올 수도 있다. 추가로, mEHD 는 EHD 에 비해 계산 복잡도에 있어서 추가적인 감소들을 제공할 수도 있다.

분류자 (232) 는 피쳐 벡터 (230) 에 기초하여 표현 결정 (248) 을 계산할 수도 있다. EHD 또는 mEHD 피쳐 벡터들 (230) 는 가변형 표현을 결정, 검출 또는 계산하기 위해 머신 학습 알고리즘과 결합하여 이용될 수도 있다. 예를 들어, 분류자 (232) 는 가변형 표현의 상태를 표시하는 표현 결정 (248) 을 계산할 수도 있다. 표현 결정 (248) 은 웃음/웃지 않음, 깜박임/깜박이지 않음, 화남/화나지 않음, 런닝함/런닝하지 않음 등을 표시할 수도 있다.

분류자 (232) 는 표현 결정 (248) 을 계산하기 위해 머신 학습 알고리즘을 이용할 수도 있다. 많은 머신 학습 알고리즘들이 현재 이용가능하다. 이들 머신 학습 알고리즘들은 KNN (K-Nearest Neighbors), SVM (Support Vector Machines), 부스팅 알고리즘, 결정 트리들, 신경망 등을 포함한다. 머신 학습 알고리즘은 오프라인 트레이닝 데이터 (240) 를 이용하여 트레이닝될 수도 있다. 일 구성에서, 머신 학습 알고리즘은 EHD 또는 mEHD 피쳐 벡터들 (230) 에 기초하거나 또는 이들 피쳐 벡터들 (230) 의 조합에 기초하여 모델을 생성하기 위해 데이터베이스 이미지들을 이용하여 트레이닝될 수도 있다.

일 구현예에서, KNN 은 이미지들의 데이터베이스에서의 각각의 표현의 각각의 이미지의 EHD 또는 mEHD 피쳐 벡터 (230) 를 연산할 수도 있고 피쳐 벡터 (230) 를 모델로 저장할 수도 있다. 다른 구현예에서, SVM 는 각각의 표현의 EHD 또는 mEHD 피쳐 벡터들 (230) 을 이용하여 표현의 최대 마진 하이퍼-플레인을 연산할 수도 있다. 하이퍼-플레인 식 또는 지원 벡터들은 분류를 위한 모델을 구성하도록 저장될 수도 있다. 또 다른 구현예에서, 부스팅 알고리즘은 표현을 위하여 연산된 EHD 또는 mEHD 피쳐 벡터들 (230) 중에서 약 분류자들을 구축할 수도 있다. 약 분류자들은 부스팅 알고리즘을 위한 모델을 구성할 것이다. 모델이 일단 머신 학습 알고리즘을 이용하여 학습되면, 머신 학습 알고리즘의 대응하는 검출 알고리즘은 가변형 표현을 검출하는데 이용될 수도 있다.

일 구성에서, 분류자 (232) 는 표현 결정 (248) 을 계산하기 위해 KNN 알고리즘을 이용할 수도 있다. KNN 알고리즘을 이용하기 위해, 입력 이미지 (214) 또는 ROI 이미지 (226) 는 K 최인접 이웃들까지의 최소 거리를 구함으로써 분류될 수도 있다. 이웃들은 피쳐 벡터들 (230) 의 EHD, mEHD 또는 양쪽 유형의 조합으로부터의 학습 데이터베이스로부터 구해질 수도 있다. 그 후, 입력 이미지 (214) 또는 ROI 이미지 (226) 의 EHD 또는 mEHD 피쳐 벡터 (230) 의, 데이터베이스 또는 모델에서의 K-피쳐 벡터들까지의 최근접 거리는 가변형 표현을 결정할 것이다 (예를 들어, 표현 결정 (248)).

다른 구성에서, 분류자 (232) 는 표현 결정 (248) 을 계산하기 위해 SVM 알고리즘을 이용할 수도 있다. SVM 알고리즘을 이용하기 위해, 2개의 표현 서브세트들 (예를 들어, 웃음/웃지 않음) 을 분리하는 최고 차원 공간에서의 최대 마진 하이퍼-플레인이 구해진다. SVM 알고리즘은 피쳐 벡터들 (230) 의 EHD, mEHD 또는 양쪽 유형들의 조합으로부터의 학습 데이터베이스로부터 하나 이상의 클래스들을 검출할 수도 있다. SVM 알고리즘은 피쳐 벡터 (230) 에 기초하여 쿼리를 수행할 수도 있다. 입력 이미지 (214) 또는 ROI 이미지 (226) 의 가변형 표현은 입력 이미지 (214) 또는 ROI 이미지 (226) 의 연산된 EHD 또는 mEHD 피쳐 벡터 (230) 의, 하이퍼-플레인의 일 면까지의 거리로서 구해질 수도 있다.

또 다른 구성에서, 분류자 (232) 는 표현 결정 (248) 을 계산하기 위해 부스팅 알고리즘을 이용할 수도 있다. 부스팅 알고리즘을 이용하기 위해, 라벨들과 모델 예측값들 사이의 에러가 최소화된다. 부스팅 알고리즘은, 각각의 약 분류자가 피쳐 벡터들 (230) 의 EHD, mEHD 또는 양쪽 유형들의 조합으로부터의 학습 데이터베이스를 이용하여 이전 약 분류자의 에러 확률로부터 학습하는 약 분류자들의 케스케이드를 구축한다. 입력 이미지 (214) 또는 ROI 이미지 (226) 의 가변형 표현 (예를 들어, 표현 결정 (248) 은 입력 이미지 (214) 또는 ROI 이미지 (226) 의 EHD 또는 mEHD 피쳐 벡터 (230) 를 연산하고, 약 분류자들에 피쳐 벡터 (230) 를 입력함으로써 구해지며, 그 후 이는 EHD 또는 mEHD 피쳐 벡터 (230) 의 확률 (또는 우도) 에 기초하여 가변형 표현을 결정한다.

가변형 표현 검출기 모듈 (212) 은 또한 제 1 피드백 유닛 (234) 및 제 2 피드백 유닛 (242) 을 포함할 수도 있다. 제 1 피드백 유닛 (234) 은 분류자 (232) 에 의해 분류 에러를 업데이트할 수도 있다. 예를 들어, 제 1 피드백 유닛 (234) 에서의 분류 사용자 인터페이스 (236) 는 사용자에게 쿼리하거나, 또는 삭제된 이미지들 (214) 에 기초하여 표현의 오분류를 검출할 수도 있다. 분류자 업데이터 (238) 는 오분류 에러들에 기초하여 분류자 (232) 를 업데이트할 수도 있다. 일 예에서, 표현 결정 (248) 이 부정확하면 (예를 들어, 분류 사용자 인터페이스 (236) 로의 입력으로부터 결정되거나 또는 입력 이미지 (214) 가 다음 분류에서 삭제되면), 분류자 업데이터 (238) 는 에러 이미지로 분류자 (232) 에 의해 이용된 학습된 모델을 조정할 수도 있다. 제 1 피드백 유닛 (234) 은 도 10 과 연관되어 보다 자세하게 설명된다.

제 2 피드백 유닛 (242) 은 사용자가 분류자 (232) 의 결정 임계 (246) 를 적응시키도록 허용한다. 결정 임계 (246) 를 적응시키는 것은 특정 표현이 입력 이미지 (214) 에서 발견될 우도를 조정할 수도 있다. 제 2 피드백 유닛 (242) 은 사용자가 분류 알고리즘에 의해 이용된 결정 임계 (246) 를 변경하도록 허용할 수도 있는 결정 임계 사용자 인터페이스 (244) 를 포함할 수도 있다. 따라서, 결정 임계 (246) 는 특정 사용자에게 맞추어지도록 시프트될 수도 있다. 제 2 피드백 유닛 (242) 은 도 11 과 연관되어 보다 자세하게 설명된다.

도 3 은 mEHD 에 따른 가변형 표현 검출을 위한 방법 (300) 을 예시하는 흐름도이다. 방법 (300) 은 전자 디바이스 (102) 에 의해 구현될 수도 있다. 일 구성에서, 방법 (300) 은 안면 표현 검출에 이용될 수도 있다. 예를 들어, 표현은 웃음 또는 깜박임과 같은 액션들을 포함할 수도 있다. 표현은 또한 화가 남, 또는 슬픔과 같은 감정들을 포함할 수도 있다. 이 구성에서, 관심 영역 (ROI) 은 안면이다. 그러나, 이 방법 (300) 은 특정 ROI 에서의 임의의 가변형 표현의 검출에 대하여 일반화될 수도 있다.

전자 디바이스 (102) 는 제 1 방향성 구배 이미지 및 제 2 방향성 구배 이미지를 생성할 수도 있다. 방향성 구배 이미지는 특정 방향과 연관된 방향성 구배 성분들에 기초할 수도 있다. 방향성 구배 이미지의 방향성 구배 성분들은 연산자 (예를 들어, Sobel 또는 Scharr 연산자) 에 기초하여 결정될 수도 있다. 예를 들어, 연산자는 방향성 구배 성분들을 연산하기 위해 ROI 이미지 (226) 에서의 각각의 픽셀에 적용될 수도 있다. 일 구성에서, 전자 디바이스 (102) 는 방향성 구배 성분들의 (크기가 아닌) 부호만을 결정할 수도 있다. 다른 구성에서, 방향성 구배 성분들의 크기 및 부호가 연산될 수도 있다.

방향성 구배 성분들은 정규 직교성일 수도 있다. 예를 들어, 방향성 구배 성분들은 수직 및 수평 방향성 구배 성분들 또는 45 도 및 135 도 방향성 구배 성분들일 수도 있다.

전자 디바이스 (102) 는 프리프로세싱된 이미지에서의 각각의 픽셀에 대해, 결합된 부호를 생성하기 위해, 제 1 방향성 구배 성분의 부호 및 제 2 방향성 구배 성분의 부호를 결합할 수도 있다 (302). 프리프로세싱된 이미지는 ROI 이미지 (226) 일 수도 있다. 각각의 픽셀의 방향성 구배 성분들의 값들은 양이거나 음이거나 제로일 수도 있다. 일 구현예에서, 제로의 값은 양의 값으로서 간주될 수도 있다. 따라서, 방향성 구배 성분의 부호는 양이거나 음일 수도 있다. 각각의 픽셀의 방향성 구배 성분들의 결합된 부호들은 이를 베이시스로 하여, 4 개의 상이한 조합을 가질 수 있다. 부호들은 양쪽 모두 양일 수도 있고 (예를 들어, 양/양 또는 ++), 양쪽 모두 음일 수도 있고 (예를 들어, 음/음 또는 --), 하나가 양이고 하나가 음일 수도 있고 (예를 들어, 양/음 또는 +-) 및 하나가 음이고 하나가 양일 수도 있다 (예를 들어, 음/양 또는 -+).

전자 디바이스 (102) 는 결합된 부호들의 각각을 코딩된 값으로 코딩한다 (304). 예를 들어, 결합된 부호들의 상이한 조합들 각각은 상이한 코딩된 값을 가질 수도 있다. 따라서, 결합된 값은 특정 코딩된 값으로 변환될 수도 있다 (예를 들어, 코딩). 일 구성에서, 코딩 (304) 은 방향성 구배 성분들의 크기의 값을 결정함이 없이 방향성 구배 성분들의 부호들에 기초하여 각각의 픽셀을 코딩하는 것을 포함할 수도 있다.

전자 디바이스 (102) 는 코딩된 값들에 기초하여 입력 이미지 (214) 에서의 표현을 검출할 수도 있다 (306). 예를 들어, ROI 이미지 (226) 의 코딩된 값들은 셀들로 분할될 수도 있다. 공간 히스토그램은 각각의 셀에서 코딩된 값들 각각을 카운팅함으로써 생성될 수도 있다. 피쳐 벡터 (230) 는 공간 히스토그램으로부터 구성될 수도 있다. 그 후, 전자 디바이스 (102) 는 머신 학습 알고리즘을 이용하여 피쳐 벡터 (230) 를 분류할 수도 있다. 머신 학습 알고리즘은 SVM 알고리즘, 부스팅 알고리즘, 또는 KNN 알고리즘일 수도 있다.

도 4 는 에지 히스토그램 디스크립터 (EHD) 에 따라 피쳐 벡터 (230) 를 구성하는 방법 (400) 을 예시하는 흐름도이다. 방법 (400) 은 전자 디바이스 (102) 에 의해 구현될 수도 있다. 일 구성에서, 방법 (400) 은 안면 표현 검출에 이용될 수도 있다. 이 구성에서, 관심 영역 (ROI) 은 안면이다. 그러나, 이 방법 (400) 은 특정 ROI 에서의 임의의 가변형 표현의 검출에 대하여 일반화될 수도 있다. 따라서, 도 4 에 예시되어 있는 흐름도에서의 단계들은 피쳐 벡터 (230) 를 추출하기 위한 EHD 의 일반적인 구현을 기술한다.

전자 디바이스 (102) 는 ROI 이미지 (226) 를 수신할 수도 있다 (402). 일 구성에서, ROI 이미지 (226) 는 입력 이미지 (214) 를 프리프로세싱할 때 얻어질 수도 있다. 이는 도 2 와 연관되어 위에 설명된 바와 같이 완성될 수도 있다.

전자 디바이스 (102) 는 제 1 방향성 구배 이미지 및 제 2 방향성 구배 이미지를 생성할 수도 있다 (404). 방향성 구배 이미지는 방향성 구배 성분들에 기초할 수도 있다. 일 구성에서, 여러 방향에서의 구배들 (예를 들어, 입력 이미지 (214) 또는 ROI 이미지 (226) 의 방향성 구배 성분들) 이 연산될 수도 있다. 이는 여러 연산자들을 이용하여 행해질 수도 있다. 일부 예시적인 연산자들은 Sobel, Prewitt, Scharr 또는 다른 유한 차이 연산자들을 포함한다. 또한, 연산자들은 선형 또는 비선형 연산자들일 수도 있다. 이들 연산자들은 또한 커넬들, 또는 필터들이라 지칭될 수도 있다. 이들 연산자들 중 어느 것 (또는 연산 도함수들을 호출할 수도 있는 임의의 연산자) 이 EHD 또는 mEHD 에 대한 방향성 구배들을 계산하는데 이용될 수도 있다. 연산자에 의해 생성되는 방향성 구배 성분들은 수직, 수평, 45 도, 135 도, 또는 임의의 다른 방향을 포함할 수도 있다. 일부 구성들에서, 연산자는 여러 엘리먼트들을 포함하는 행렬일 수도 있다. 따라서, 방향성 구배 성분은 이미지 (예를 들어, ROI 이미지 (226)) 의 컨볼루션의 출력일 수도 있고 특정 방향에 대응하는 연산자 (예를 들어, Sobel 연산자) 일 수도 있다.

일 예에서, 방향성 구배 성분들은 수평 방향 구배 성분들 (G _h ) 및 수직 방향 구배 성분들 (G _v ) 을 포함할 수도 있다. ROI 이미지 (226) 에서의 각각의 픽셀에 대한 수평 방향 구배 성분들 (G _h ) 은 식 (1) 에 도시된 바와 같이, ROI 이미지 (226) 상에 수평 Sobel 연산자를 적용함으로써 연산될 수도 있다. ROI 이미지 (226) 에서의 각각의 픽셀에 대한 수평 방향 구배 성분들 (G _v ) 은 식 (2) 에 도시된 바와 같이, ROI 이미지 (226) 상에 수직 Sobel 연산자를 적용함으로써 연산될 수도 있다.

식 (1) 및 식 (2) 에서, 변수 I 는 고려중인 ROI 이미지 (226) 이고, "*" 는 컨볼루션 연산자이고, 행렬은 연산자 (예를 들어, Sobel 연산자) 이다. 식 (1) 및 식 (2) 에서, 컨볼루션은 ROI 이미지 (226) 상에서 연산자를 슬라이딩시킴으로써 수행될 수도 있다. 각각의 연산자 포지션은 ROI 이미지 (226) 에서의 픽셀에 대한 대응하는 방향성 구배 성분을 생성할 수 있다. 따라서, 식 (1) 및 식 (2) 에 기초하여, ROI 이미지 (226) 에서의 각각의 픽셀은 2 개의 방향성 구배 성분들을 갖는다. 예를 들어, 픽셀은 수평 방향 구배 성분들 (G _h ) 및 수직 방향 구배 성분들 (G _v ) 을 갖는다.

방향성 구배 성분의 값은 컨볼루션 연산에 기초하여 계산될 수도 있다. 예를 들어, 방향성 구배 성분의 값은 연산자 값 및 연산자의 각각의 엘리먼트의 기반이 되는 ROI 이미지 (226) 픽셀 값을 곱하고 다음 이들 결과들을 함께 가산함으로써 계산될 수도 있다. 방향성 구배 성분의 값은 컨볼루션에 의해 결정되는 바와 같이, 특정 크기 및 부호를 갖는다.

방향성 구배 이미지는 특정 방향과 연관된 방향성 구배 성분들로 구성될 수도 있다. 2 개의 방향들 (예를 들어, 수평 및 수직) 에 대한 결과적인 방향성 구배 이미지들의 예는 도 5 에 예시되어 있다. 다른 방향성 구배 이미지들 (예를 들어, 45 도, 135 도 등) 은 또한 필요에 따라 EHD 에 대해 연산될 수도 있다. 고려중인 가변형 표현에 의존하여, 보다 많은 방향성 구배들을 연산하는 것은 검출 정확도를 증가시킬 수도 있다. 방향성 구배 이미지의 각각의 방향성 구배 성분은 방향성 구배 성분과 연관된 방향에서 오리지널 ROI 이미지 (226) 에서의 동일한 지점에서의 강도에 있어서의 변화를 표시할 수도 있다.

전자 디바이스 (102) 는 방향성 구배 이미지들에서의 크기들 및 부호들에 기초하여 제 1 공간 히스토그램 및 제 2 공간 히스토그램을 생성할 수도 있다 (406). 방향성 구배 이미지는 방향성 구배 이미지를 그리드로 분할함으로써 셀들로 분할될 수도 있다. 각각의 셀에서의 에지들은 여러 유형들로 분류될 수도 있다. 예를 들어, 에지들은 수직, 수평, 45 도, 135 도, 또는 다른 배향으로서 분류될 수도 있다. 에지들은 또한 비방향성으로서 분류될 수도 있다.

EHD 에서의 공간 히스토그램은 방향성 구배 이미지의 각각의 셀에서의 에지 유형을 카운트함으로써 생성될 수 있다 (406). 예를 들어, 각각의 방향성 구배 성분의 값들은 두개의 빈들로 평활화될 수도 있다. 예를 들어, 방향성 구배 성분은 방향성 구배 성분의 크기가 미리 정의된 임계보다 큰지의 여부에 의존하여, 에지 또는 비에지로서 분류될 수도 있다. EHD 에서, 에지의 강도는 구배 크기에 기초하여 결정될 수도 있다. 공간 히스토그램은 각각의 셀에서의 에지들과 비에지들의 수를 포함할 수도 있다. 각각의 방향성 구배 성분에 대한 공간 히스토그램은 벡터 (예를 들어, 성분 피쳐 벡터) 로서 표현될 수도 있다.

방향성 구배 성분들이 수평 방향 구배 성분들 (G _h ) 및 수직 방향 구배 성분들 (G _v ) 을 포함하는 일 예에서, 제 1 공간 히스토그램은 각각의 셀에서의 수평 에지들 및 비에지들의 수를 표시할 수도 있다. 제 1 공간 히스토그램의 값들은 제 1 성분 피쳐 벡터에 포함될 수도 있다. 따라서, 제 1 성분 피쳐 벡터는 제 1 구배 이미지의 각각의 셀에서 수평 에지들 및 비수평 에지들의 수를 포함할 수도 있다. 제 2 공간 히스토그램은 각각의 셀에서의 수직 에지들의 수를 표시할 수도 있다. 제 2 공간 히스토그램의 값들은 제 2 성분 피쳐 벡터에 포함될 수도 있다. 따라서, 제 2 성분 피쳐 벡터는 제 2 구배 이미지의 각각의 셀에서 수평 에지들 및 비수평 에지들의 수를 포함할 수도 있다.

전자 디바이스 (102) 는 제 1 공간 히스토그램 및 제 2 공간 히스토그램에 기초하여 픽쳐 벡터 (230) 를 구성할 수도 있다 (408). 예를 들어, 제 1 성분 피쳐 벡터 및 제 2 성분 피쳐 벡터는 피쳐 벡터 (230) 를 획득하기 위해 결합되거나 연접될 수도 있다. 피쳐 벡터 (230) 의 차원은 공간 히스토그램의 셀들의 수 (C), 사용된 방향성 구배 성분들의 수 (D) 및 구배 값들의 양자화 레벨들의 수 (Q) 에 관련된다 (예를 들어, C×D×Q).

일 구성에서, EHD 에서 연산되는 값들은 정규화될 수도 있다. 예를 들어, 정규화는 공간 히스토그램이 연산되는 셀의 총 사이즈로 피쳐 벡터 (230) 의 값들을 나눔으로써 수행될 수도 있다. 정규화는 0 과 1 사이에서 피쳐 벡터 (230) 의 최종 값들을 만들 수도 있다. 정규화 단계는 일부 머신 학습 알고리즘들, 이를 테면, SVM (Support Vector Machines) 에 대해 유리할 수 있다.

여기에 설명된 시스템들 및 방법들에서, 전체적인 방향성 구배 표기법 (예를 들어, 방향성 구배 성분들의 부호 및 크기) 은 EHD 피쳐 벡터 (230) 를 구성하는데 이용될 수 있음을 주지해야 한다. 따라서, EHD 피쳐 백터 (230) 를 구성하는데 이용되는 공간 히스토그램(들)은 모든 구배 정보 (예를 들어, 방향성 구배 성분들의 부호 및 크기) 를 고려해야 한다.

도 5 는 EHD 에 따라 피쳐 벡터 (530) 를 계산하는 일 예를 예시하는 도면이다. 이 예에서, 제 1 방향성 구배 이미지 (550a) 및 제 2 방향성 구배 이미지 (550b) 는 ROI 이미지 (226) 로부터 생성된다. ROI 이미지 (226) 의 사이즈는 48 픽셀들 바이 48 픽셀들 (예를 들어, 48×48) 이다. 제 1 방향성 구배 성분은 수평 방향성 구배 성분 (G _h ) 이다. 제 2 방향성 구배 성분은 수직 방향성 구배 성분 (G _v ) 이다.

방향성 구배 이미지들 (550a, 550b) 은 ROI 이미지 (226) 에 연산자들을 적용함으로써 생성될 수도 있다. 예를 들어, 컨볼루션 연산은 특정 방향에 대응하는 방향성 구배 성분들을 생성할 수도 있다. 이는 도 4 와 연관되어 위에 설명된 바와 같이 완성될 수도 있다. 이 예에서, 제 1 방향성 구배 이미지 (550a) 는 수평 방향성 구배 성분들 (G _h ) 에 대응한다. 제 2 방향성 구배 이미지 (550b) 는 수직 방향성 구배 성분들 (G _v ) 에 대응한다. 방향성 구배 이미지들 (550a, 550b) 은 각각 48×48 픽셀들이다. 방향성 구배 이미지에서의 각각의 방향성 구배 성분은 -127 과 127 사이의 값을 가질 수도 있다.

공간 히스토그램들을 생성하기 위해, 각각의 방향성 구배 이미지 (550a, 550b) 는 셀들 (552) 로 분할될 수도 있다. 이 예에서, 방향성 구배 이미지들 (550a, 550b) 은 3×3 그리드에서, 9 개의 비오버랩 셀들 (552) 로 분할된다. 각각의 셀 (552) 은 16×16 픽셀들의 사이즈를 갖는다.

공간 히스토그램은 방향성 구배 이미지의 각각의 셀 (552) 에서의 에지 유형을 카운트함으로써 생성될 수 있다. 예를 들어, 방향성 구배 이미지 에서의 각각의 방향성 구배 성분의 값들은 2 개의 빈들 (예를 들어, 2 개의 양자화 레벨들) 로 양자화될 수도 있다. 예를 들어, 방향성 구배 성분은 방향성 구배 성분의 크기가 미리 정의된 임계보다 큰지의 여부에 의존하여, 에지 또는 비에지일 수도 있다. 공간 히스토그램은 각각의 셀 (552) 에서의 에지들과 비에지들의 수를 포함할 수도 있다.

공간 히스토그램의 값들은 성분 피쳐 벡터에 포함될 수도 있다. 성분 피쳐 벡터의 차원은 공간 히스토그램의 셀들의 수 (C) 및 양자화 레벨들의 수 (Q) 에 관련된다. 이 예에서, 9 개의 셀들 (552) 과 2 개의 양자화 레벨들 (예를 들어, 에지 또는 비에지) 이 존재한다. 따라서, 성분 피쳐 벡터들 (554a, 554b) 의 차원은 9×2 = 18 이다. 즉, 이 예에서의 성분 피쳐 벡터들 (554a, 554b) 은 18 개의 엘리먼트들을 각각 포함한다.

이 예에서, 제 1 공간 히스토그램의 값들은 제 1 성분 피쳐 벡터 (554a) 에 포함될 수도 있다. 따라서, 제 1 성분 피쳐 벡터 (554a) 는 제 1 구배 이미지 (550a) 의 각각의 셀 (552) 에서 수평 에지들 및 비수평 에지들의 수를 포함할 수도 있다. 제 2 공간 히스토그램은 각각의 셀 (552) 에서의 수직 에지들의 수를 표시할 수도 있다. 제 2 공간 히스토그램의 값들은 제 2 성분 피쳐 벡터 (554b) 에 포함될 수도 있다. 따라서, 제 2 성분 피쳐 벡터 (554b) 는 제 2 구배 이미지 (550b) 의 각각의 셀 (552) 에서 수평 에지들 및 비수평 에지들의 수를 포함할 수도 있다.

위에 논의한 바와 같이, EHD 에 대한 피쳐 벡터 (530) 의 차원은 공간 히스토그램의 셀들의 수 (C), 사용된 방향성 구배 성분들의 수 (D) 및 구배 값들의 양자화 레벨들의 수 (Q) 에 관련된다 (예를 들어, C×D×Q). 이 예에서, 9 개의 셀들 (552), 2 개의 방향성 구배 성분들 (예를 들어, G _h 및 G _v ), 및 2 개의 양자화 레벨들이 존재한다. 따라서, 피쳐 벡터들 (530) 의 차원은 9×2×2 = 36 이다. 즉, 이 예에서의 피쳐 벡터 (530) 는 36 개의 엘리먼트들을 각각 포함한다. 도 5 와 연관되어 논의되는 예에서 표시되는 값들은 예시적인 것이고, 설명된 시스템들 및 방법들에 따라 변경될 수도 있음을 주지해야 한다.

일 구성에서, EHD 에서 연산되는 값들은 정규화될 수도 있다. 예를 들어, 정규화는 공간 히스토그램이 연산되는 셀 (552) 의 총 사이즈로 피쳐 벡터 (530) 의 값들을 나눔으로써 수행될 수도 있다. 이 예에서, 피쳐 벡터 (530) 의 값들은 피쳐 벡터 (530) 의 최종 값들이 0 과 1 사이에 있는 것을 보장하도록 셀 (552) 의 사이즈로 나누어질 수도 있다 (예를 들어, 256 = 16×16).

도 6 은 mEHD 에 따라 피쳐 벡터 (230) 를 추출하는 방법 (600) 을 예시하는 흐름도이다. 방법 (600) 은 전자 디바이스 (102) 에 의해 구현될 수도 있다. 일 구성에서, 방법 (600) 은 안면 표현 검출에 이용될 수도 있다. 이 구성에서, 관심 영역 (ROI) 은 안면이다. 그러나, 이 방법 (600) 은 특정 ROI 에서의 임의의 가변형 표현의 검출에 대하여 일반화될 수도 있다. 따라서, 도 6 에 예시되어 있는 흐름도에서의 단계들은 피쳐 벡터 (230) 를 추출하기 위한 EHD 의 일반적인 구현을 기술한다.

EHD 에 기초한 피쳐 벡터 (230) 는, EHD 가 (PCA 에서와 같이) 특이값 분해들, 또는 (LBP 에서와 같이) 보간에 반해, 구배 계산들을 호출하기 때문에 다른 알려진 솔루션들에 비해 연산에 있어 보다 단순할 수도 있다. 그러나, 전자 디바이스들 (102), 이를 테면, 모바일 디바이스들은 자원들을 절감하고 전력 소모를 감소시키기 위해 추가의 저비용 특징의 이점을 가질 수도 있다. 따라서, 본 시스템들 및 방법들은 EHD 의 계산들을 감소시킬 수도 있고 하드웨어 친화적인 변경된 EHD (mEHD) 를 기술한다.

전자 디바이스 (102) 는 ROI 이미지 (226) 를 수신할 수도 있다 (602). 일 구성에서, ROI 이미지 (226) 는 도 2 와 연관되어 위에 설명된 바와 같이, 입력 이미지 (214) 를 프리프로세싱할 때 얻어질 수도 있다.

전자 디바이스 (102) 는 제 1 방향성 구배 이미지 및 제 2 방향성 구배 이미지를 생성할 수도 있다 (604). 이는 도 4 와 연관되어 위에 설명된 바와 같이 완성될 수도 있다. 방향성 구배 이미지는 특정 방향과 연관된 방향성 구배 성분들에 기초할 수도 있다.

방향성 구배 성분들은 정규 직교성일 수도 있고 정규 직교 베이시스일 수도 있다. 정규 직교 베이시스의 일 예는 식들 (1) 및 (2) 에서 위에 설명된 바와 같이 Sobel 연산자 및 그 전치 행렬이다. 따라서, 일 구성에서, 방향성 구배 벡터들은 수직 및 수평 방향성 구배 성분들일 수도 있다. 다른 구성에서, 방향성 구배 벡터들은 45 도 및 135 도 방향성 구배 성분들일 수도 있다. 임의의 정규 직교 베이시스에 이용될 수도 있음을 주지해야 한다.

일 예에서, 방향성 구배 성분들은 수평 방향 구배 성분들 (G _h ) 및 수직 방향 구배 성분들 (G _v ) 을 포함할 수도 있다. 이 예에서, G _h 및 G _v 는 정규 직교 베이시스를 형성하고, 제 1 방향성 구배 이미지 및 제 2 방향성 구배 이미지를 생성하는데 (604) 이용될 수도 있다.

방향성 구배 이미지는 특정 방향과 연관된 방향성 구배 성분들로 구성될 수도 있다. 2 개의 방향들 (예를 들어, 수평 및 수직 방향) 에 대한 방향성 구배 이미지들의 결과적인 픽셀 값들 (예를 들어, 방향성 구배 성분 값들) 을 예시하는 일 예는 도 8 에 예시되어 있다.

전자 디바이스 (102) 는 결합된 부호를 생성하기 위해, 제 1 방향성 구배 성분의 부호 및 제 2 방향성 구배 성분의 부호를 결합할 수도 있다 (606). mEHD 에서, 전체 방향성 구배 값들 (예를 들어, 방향성 구배 성분들의 크기 및 부호들) 을 고려하는 대신에, 적어도 2 개의 방향성 구배 성분들의 부호들만을 고려하여 피쳐 벡터 (230) 를 구성한다. 또한, mEHD 는 에지들이 Sobel 또는 Scharr 연산자들을 통하여 연산되면 실패할 수도 있는 다른 알려진 피쳐 디스크립터 솔루션들에 비해 에지들이 계산되는 방법에 둔감하다. 예를 들어, Sobel 및 Scharr 연산자들은 다른 종래의 피쳐 디스크립터 솔루션들에 대해 문제가 되는 회전 편차를 근사시킨다.

각각의 픽셀의 방향성 구배 성분들의 값들은 양이거나 음이거나 제로일 수도 있다. 일 구현예에서, 제로의 값은 양의 값으로서 간주될 수도 있다. 따라서, 방향성 구배 성분의 부호는 양이거나 음일 수도 있다. 각각의 픽셀의 방향성 구배 성분들의 결합된 부호들은 이를 베이시스로 하여, 4 개의 상이한 조합을 가질 수 있다. 부호들은 양쪽 모두 양일 수도 있고 (예를 들어, 양/양 또는 ++), 양쪽 모두 음일 수도 있고 (예를 들어, 음/음 또는 --), 하나가 양이고 하나가 음일 수도 있고 (예를 들어, 양/음 또는 +-) 및 하나가 음이고 하나가 양일 수도 있다 (예를 들어, 음/양 또는 -+).

전자 디바이스 (102) 는 결합된 부호를 각각 코딩된 값으로 코딩할 수도 있다 (608). 코딩된 값들의 최대 수는 이용된 방향성 구배 성분들의 수에 의존할 수도 있다. 코딩된 값들 (M) 의 최대 수는 M = 2^D 로서 결정될 수도 있고, 여기에서 D 는 이용된 방향성 구배 성분들의 수이다. 방향성 구배 성분들이 수평 방향 구배 성분들 (G _h ) 및 수직 방향 구배 성분들 (G _v ) 을 포함하는 이 예에서, 2 개의 방향성 구배들이 이용되고 (예를 들어, D = 2) 결합된 부호의 코딩된 값들의 최대 수는 4 이다. 즉, 이 예에서, 결합된 부호는 4 개의 상이한 코딩된 값들 중 하나로 코딩될 수도 있다 (608).

전자 디바이스 (102) 는 코딩된 값들에 기초하여 공간 히스토그램을 생성할 수도 있다 (610). 일 구성에서, 공간 히스토그램은 ROI 이미지 (226) 에서의 각각의 픽셀의 코딩된 값들을 셀들의 그리드로 분할함으로써 생성될 수도 있다 (610). 일 예에서, ROI 이미지 (226) 에서의 각각의 픽셀의 코딩된 값들은 3×3 그리드에서 9 개의 비오버랩 셀들로 분할될 수도 있다. 공간 히스토그램은 셀에서의 코딩된 값의 수 (예를 들어, 발생값 (occurrence)) 를 카운트함으로써 생성될 수도 있다 (610).

전자 디바이스 (102) 는 공간 히스토그램에 기초하여 피쳐 벡터 (230) 를 구성할 수도 있다 (612). 피쳐 벡터 (230) 는 공간 히스토그램의 값들을 포함할 수도 있다. 따라서, 피쳐 벡터 (230) 는 공간 히스토그램의 각각의 셀에서의 각각의 코딩된 값의 수 (예를 들어, 발생값) 를 포함할 수도 있다. mEHD 에 기초한 피쳐 벡터 (230) 의 차원은 공간 히스토그램의 셀들의 수 (C) 및 이용된 코딩된 값들의 수 (M) 에 관련된다 (예를 들어, C×M). mEHD 에 기초하여 피쳐 벡터 (230) 를 구성하는 (612) 보다 구체화된 예는 도 8 과 연관되어 설명된다.

일 구성에서, mEHD 에서 연산되는 값들은 정규화될 수도 있다. 예를 들어, 정규화는 공간 히스토그램이 연산되는 셀의 총 사이즈로 피쳐 벡터 (230) 의 값들을 나눔으로써 수행될 수도 있다. 정규화는 0 과 1 사이에서 피쳐 벡터 (230) 의 최종 값들을 만들 수도 있다.

mEHD 피쳐 벡터 (230) 는 동시에 그리고 직접적으로 2 개의 베이시스 이미지들로부터 구성될 수도 있다. 그러나, EHD (도 4 및 도 5 와 연관되어 위에 설명됨) 에서, 각각의 방향성 구배 성분은 독립적으로 다루어진다. 또한, mEHD 에서, 방향의 부호는 mEHD 피쳐 벡터 (230) 를 구성하기 위해 코딩될 때 이용될 수도 있다. 공간 히스토그램은 mEHD 피쳐 벡터 (230) 에 포함된 공간 히스토그램을 구성하기 위해 방향성 구배 성분들의 부호들 (또는 코딩된 부호들) 을 이용한다.

도 7 은 방향성 구배 성분들의 결합된 부호들 (756) 을 코딩하는 일 예를 예시하는 도면이다. 도 7 에서, ∂1 및 ∂2 는 방향성 도함수들이다. 또한, ∂1 및 ∂2 는 제 1 방향성 구배 성분 (G₁) 및 제 2 방향성 구배 성분 (G₂) 에 의해 정의되는 축들이다. 일 구성에서, ∂1 및 ∂2 는 정규 직교 베이시스를 정의할 수도 있다. 예를 들어, ∂1 은 수평 방향성 구배 성분 (G _h ) 에 대응할 수도 있고 ∂2 는 수직 방향성 구배 성분 (G _v ) 에 대응할 수도 있다. 이 예에서, ∂1 은 ∂h 로서 표현될 수도 있고 ∂2 는 ∂v 로서 표현될 수도 있다.

G₁ 및 G₂ 에서 (그리고 결과적으로 ∂1 및 ∂2 에서) 각각의 픽셀은 양, 음, 또는 제로일 수도 있다. 일 구현예에서, 제로의 값은 양의 값으로서 간주될 수도 있다. 도 7 에 예시된 예에서, 베이시스를 정의하는 G₁ 및 G₂ 에서의 방향성 구배 성분들의 결합된 부호들 (756) 은 2 차원 문제에 이용된다. 각각의 픽셀의 방향성 구배 성분들의 결합된 부호들 (756) 은 이를 베이시스로 하여, 4 개의 상이한 조합을 가질 수 있다. 부호들은 양쪽 모두 양일 수도 있고 (예를 들어, 양/양 또는 ++), 양쪽 모두 음일 수도 있고 (예를 들어, 음/음 또는 --), 하나가 양이고 하나가 음일 수도 있고 (예를 들어, 양/음 또는 +-) 및 하나가 음이고 하나가 양일 수도 있다 (예를 들어, 음/양 또는 -+). 결합된 부호들 (756) 은 분류자 (232) 가 mEHD 에 따라 부호 편차들 또는 패턴들을 구함으로써 가변형 표현을 검출할 수도 있다.

결합된 부호들 (756) 은 4 개의 상이한 코딩된 값들 (758) 로 코딩될 수도 있다. 도 7 에 예시된 구성에서, 음/음은 0 으로 코딩될 수도 있고, 양/음은 1 로 코딩될 수도 있고, 양/양은 2 로 코딩될 수도 있고, 음/양은 3 으로 코딩될 수도 있다.

코딩된 값들 (758) 의 수는 이용된 방향성 도함수들의 수에 의존할 수도 있다. mEHD 피쳐 벡터 (230)(예를 들어, mEHD 디스크립터) 는 2 차원으로 단지 2 개의 방향성 도함수들만을 이용하여 구성될 수도 있다. 이 컨셉은 2 보다 많은 방향성 도함수들로 확장될 수도 있다. 그 경우에, 4 보다 많은 코딩된 값들 (758) 이 이용될 수도 있다. 요구되는 코딩된 값들 (758) 의 수는 이용된 방향성 도함수들의 수에 의존할 수도 있다. 2 개의 방향성 도함수들에 대해, 2²= 4 코딩된 값들 (758) 이 요구된다. L 개의 방향성 도함수 (여기에서 L≥2 임) 에 대해, 2^L 개의 코딩된 값들 (758) 이 요구된다.

2 차원 그래프가 도 7 에 예시되어 있지만, 시스템들 및 방법들은 N 차원들로 또한 확장될 수도 있다. 따라서, mEHD 피쳐 벡터 (230) 는 N 차원으로 확장될 수도 있다. 일 예는 비디오 시퀀스에서처럼 시간을 포함하는 것이다. 다른 예는 보다 방향성인 구배들을 이용하는 것이다. 코딩된 값들 (758) 의 최대 수는 여전히, 이용된 방향성 구배 성분들 (및 대응하는 방향성 도함수들) 의 수에 의존할 것이다.

mEHD 로의 확장으로서, 코딩된 값들 (758) 전부를 사용하는 것은 아닌 것도 가능하다. 일 구성에서, 4 개의 코딩된 값들 (758) 중 2 개만을 이용할 수도 있다. 각각의 2 개의 반-대각화 부호들 (예를 들어, ++ & -- 또는 +- & -+) 은 서로 상보적이다. 표현 검출의 복잡성에 의존하여, 2 개의 코딩된 값들 (758) 이 부호 패턴을 기술하기에 충분할 수도 있다. 예를 들어, ++ & +- 또는 ++ & -+ 또는 -- & +- 또는 -- & -+ 이 부호 패턴을 기술하기에 충분할 수도 있다.

도 8 은 mEHD 에 따라 피쳐 벡터 (830) 를 계산하는 일 예를 예시하는 도면이다. 이 예에서, 제 1 방향성 구배 이미지 (850a) 및 제 2 방향성 구배 이미지 (850b) 는 ROI 이미지 (226) 로부터 생성된다. 이는 도 6 과 연관되어 위에 설명된 바와 같이 완성될 수도 있다. 방향성 구배 이미지들 (850a, 850b) 의 픽셀 값들 (예를 들어, 방향성 구배 성분 값들) 은 도 8 에 예시되어 있다.

이 예에서, ROI 이미지 (226) 의 사이즈는 48 픽셀들 바이 48 픽셀들 (예를 들어, 48×48) 이다. 제 1 방향성 구배 이미지 (850a) 는 수평 방향성 구배 성분들 (G _h ) 에 대응한다. 제 2 방향성 구배 이미지 (850b) 는 수직 방향성 구배 성분들 (G _v ) 에 대응한다. 방향성 구배 이미지들 (850a, 850b) 은 각각 48×48 픽셀들이다. 이 예에서, 방향성 구배 성분들의 크기들이 연산된다. 방향성 구배 이미지에서의 각각의 방향성 구배 성분은 -127 과 127 사이의 값을 가질 수도 있다. 이는 도 6 과 연관되어 위에 설명된 바와 같이 Sobel 연산자에 기초하여 완성될 수도 있다. 그러나, 다른 구성들에서, 각각의 방향성 구배 성분의 부호들 (크기가 아님) 만이 결정될 수도 있음을 주지해야 한다.

방향성 구배 이미지들 (850a, 850b) 의 부호들은 결합되어 ROI 이미지 (226) 의 각각의 픽셀에 대한 결합된 부호 (856) 가 생성될 수도 있다. 예를 들어, 제 1 방향성 구배 성분의 부호 및 제 2 방향성 구배 성분의 부호가 결합되어 결합된 부호 (856) 가 생성될 수도 있다. 각각의 픽셀의 방향성 구배 성분들의 값들은 양이거나 음이거나 제로일 수도 있다. 일 구현예에서, 제로의 값은 양의 값으로서 간주될 수도 있다. 각각의 픽셀의 방향성 구배 성분들의 결합된 부호들 (856) 은 이를 베이시스로 하여, 4 개의 상이한 조합을 가질 수 있다. 부호들은 양쪽 모두 양일 수도 있고 (예를 들어, 양/양 또는 ++), 양쪽 모두 음일 수도 있고 (예를 들어, 음/음 또는 --), 하나가 양이고 하나가 음일 수도 있고 (예를 들어, 양/음 또는 +-) 및 하나가 음이고 하나가 양일 수도 있다 (예를 들어, 음/양 또는 -+).

결합된 부호들 (856) 은 코딩된 값들 (858) 로 코딩될 수도 있다. 이는 도 7 과 연관되어 위에 설명된 바와 같이 완성될 수도 있다. 이 예에서, 2 개의 방향성 구배 성분들이 이용된다. 따라서, 각각의 결합된 부호 (856) 에 대해, 코딩된 값들 (858) 의 최대 수는 4 이다. 즉, 이 예에서, 결합된 부호 (856) 는 4 개의 상이한 코딩된 값들 (858) 중 하나로 코딩될 수도 있다.

피쳐 벡터 (830) 는 공간 히스토그램에 기초하여 생성될 수도 있다. 일 구성에서, 공간 히스토그램은 ROI 이미지 (226) 에서의 각각의 픽셀의 코딩된 값들 (858) 을 비오버랩 셀들 (852) 의 그리드로 분할함으로써 생성될 수도 있다. 코딩된 값들 (858) 은 3×3 그리드에서, 9 개의 셀들 (852) 로 분할된다. 이 경우에, 각각의 셀 (852) 은 사이즈 16×16 를 갖는다. 공간 히스토그램은 셀 (852) 에서의 각각의 코딩된 값의 수 (예를 들어, 발생값) 를 카운트함으로써 생성될 수도 있다.

피쳐 벡터 (830) 는 공간 히스토그램의 각각의 셀 (852) 에서의 각각의 코딩된 값의 수 (예를 들어, 발생값) 를 포함할 수도 있다. mEHD 에 기초한 피쳐 벡터 (830) 의 차원은 공간 히스토그램의 셀들의 수 (C) 및 이용된 코딩된 값들의 수 (M) 에 관련된다 (예를 들어, C×M). 이 예에서, 셀들의 수 (C) 는 9 이고 코딩된 값들의 수 (M) 는 4 이다. 따라서, 피쳐 벡터들 (830) 의 차원은 9×4 = 36 이다.

일 구성에서, mEHD 에서 연산되는 값들은 정규화될 수도 있다. 예를 들어, 정규화는 공간 히스토그램이 연산되는 셀 (852) 의 총 사이즈로 피쳐 벡터 (230) 의 값들을 나눔으로써 수행될 수도 있다. 이 예에서, 셀 (852) 의 사이즈는 16×16 = 256 이다. 정규화는 0 과 1 사이에서 피쳐 벡터 (230) 의 최종 값들을 만들 수도 있다.

도 9 는 입력 이미지 (214) 를 프리프로세싱하는 방법 (900) 을 예시하는 흐름도이다. 방법 (900) 은 전자 디바이스 (102) 에 의해 수행될 수도 있다. 일 구성에서, 방법 (900) 은 안면 표현 검출을 위해 수행될 수도 있다. 따라서, 관심 영역 (ROI) 은 안면이다. 그러나, 본 시스템들 및 방법들은 특정 ROI 에서의 임의의 가변형 표현의 검출에 대하여 일반화될 수도 있다.

전자 디바이스 (102) 는 입력 이미지 (214) 를 수신할 수도 있다 (902). 입력 이미지 (214) 는 카메라 (예를 들어, 이미지 센서 (104) 및 광학 시스템 (106)) 로부터 수신될 수도 있다 (902). 입력 이미지 (214) 는 또한 메모리로부터 수신될 수도 있다 (902).

전자 디바이스 (102) 는 프리프로세서 (216) 는 ROI 에 대하여 입력 이미지 (214) 를 정렬시킬 수도 있다 (904). 예를 들어, 전자 디바이스 (102) 는 안면에서의 눈들이 수평선 상에 있도록 안면을 정렬시킬 수도 있다.

전자 디바이스 (102) 는 정렬된 입력 이미지 (214) 를 크롭핑할 수도 있다 (906). 예를 들어, 전자 디바이스 (102) 는 입력 이미지 (214) 로부터 비-ROI 부분들을 제거할 수도 있다. 안면 표현 검출의 경우에, 전자 디바이스 (102) 는 입력 이미지 (214) 로부터 비안면 영역들을 제거할 수도 있다.

전자 디바이스 (102) 는 크롭핑된 입력 이미지 (214) 를 스케일링할 수도 있다 (908). 입력 이미지 (214) 는 비교 목적을 위하여 스케일링될 수도 있다 (908). 예를 들어, 전자 디바이스 (102) 는 미리 정의된 사이즈로 안면 영역을 스케일링할 수도 있다 (908).

전자 디바이스 (102) 는 히스토그램 평활화를 수행할 수도 있다 (910). 히스토그램 평활화는 입력 이미지 (214) 의 히스토그램을 평활화 또는 정규화하기 위해 수행될 수도 있다 (910). 예를 들어, 전자 디바이스 (102) 는 입력 이미지 (214) 에서의 조명 편차를 극복할 수도 있다.

전자 디바이스 (102) 는 ROI 이미지 (226) 를 출력할 수도 있다 (912). ROI 이미지 (226) 는 정렬되어 미리 정의된 사이즈로 스케일링되고 평활화되는 입력 이미지 (214) 로부터 크롭핑된 ROI 를 포함할 수도 있다.

도 9 에 예시되어 있는 방법 (900) 의 단계들은 상호교환될 수도 있음을 주지해야 한다. 또한, 일부 단계들은 사용자가 허용할 수 있는 정확도 또는 복잡도에 의존하여 제거 또는 추가될 수도 있다. 예를 들어, 히스토그램 평활화는 이 방법 (900) 의 일부 구성들에서 누락될 수도 있다. 또한, ROI 에 기초한 정렬이 또한 누락될 수도 있다. 실제로, 프리프로세싱 단계들 모두는 가변형 표현 검출을 위한 특수 구성으로서 제거될 수도 있다.

도 10 은 분류 에러를 업데이트하는 방법 (1000) 을 예시하는 흐름도이다. 방법 (1000) 은 전자 디바이스 (102) 에 의해 수행될 수도 있다. 일 구성에서 방법 (1000) 은 전자 디바이스 (102) 에서의 제 1 피드백 유닛 (234) 에 의해 수행될 수도 있다. 전자 디바이스 (102) 는 표현을 포함하거나 또는 포함하지 않는 것으로 입력 이미지 (214) 를 분류할 수도 있다 (1002). 일 시나리오에서, 전자 디바이스 (102) 는 입력 이미지에서의 안면이 특정 표현을 포함하는지의 여부를 결정할 수도 있다. 표현들의 예들은, 웃음, 감은 눈들, 화남, 런닝 등을 포함한다.

전자 디바이스 (102) 는 입력 이미지 (214) 의 오분류를 검출할 수도 있다 (1004). 예를 들어, 웃음이 정확하지 않게 검출될 수도 있거나, 또는 눈들이 정확히 떠있을 때 눈들이 감겨졌다는 분류가 결정될 수도 있다. 오분류를 검출하는 것 (1004) 은 카메라를 이용하는 애플리케이션에서 분류 사용자 인터페이스 (236) 를 이용하는 것을 포함할 수도 있다.

일 구성에서, 분류 사용자 인터페이스 (236) 는 분류의 정확도에 대해 사용자에게 문의함으로써 입력 이미지 (214) 의 오분류 (예를 들어, 잘못 검출된 표현들) 를 검출할 수도 있다 (1004). 피쳐 (예를 들어, 입력 이미지 (214)) 가 찍히고 그리고 표현 결정 (248) 이 결정된 후, 분류 사용자 인터페이스 (236) 가 입력 이미지 (214) 및 분류 (예를 들어, 표현 결정 (248)) 를 사용자에게 제공할 수도 있다. 분류 사용자 인터페이스 (236) 는 분류가 정확한지를 사용자에게 문의할 수도 있다. 분류 사용자 인터페이스 (236) 는 고정된 간격들로 (예를 들어, 각각의 분류마다, 두번째 분류마다, 세번째 분류마다 등) 또는 랜덤하게 분류의 정확도를 검증하도록 사용자에게 문의할 수도 있다. 그 후, 사용자는 분류가 정확함을 검증할 기회 또는 오분류를 식별할 기회를 가질 수도 있다.

다른 구성에서, 오분류는 사용자에 의해 입력 이미지 (214) 의 삭제로부터 추론될 수도 있다. 예를 들어, 입력 이미지 (214) 의 분류가 정확하지 않았다면, 사용자는 입력 이미지 (214) 를 삭제할 수도 있다. 분류 사용자 인터페이스 (236) 는 삭제된 이미지에 대응하는 분류를 오분류로서 식별할 수도 있다. 이러한 식으로, 분류 사용자 인터페이스 (236) 는 분류 실수들에 대하여 학습할 수도 있다.

전자 디바이스 (102) 는 오분류에 기초하여 분류자 (232) 를 업데이트할 수도 있다 (1006). 분류자 (232) 에 대한 업데이트 (1006) 는 이용된 분류자 (232) 의 유형에 의존할 수도 있다. 예로서, KNN (K-Nearest Neighbors) 분류자들 (232) 은 입력 이미지 (214) 또는 ROI 이미지 (226) 의, 학습 데이터베이스의 K-엘리먼트들까지의 최단 거리들을 이용할 수도 있다. SVM (Support Vector Machine) 분류자들 (232) 은 두개의 서브세트들 (예를 들어, 웃음/웃지 않음, 런닝함/런링하지 않음) 을 분리하는 하이퍼-플레인 (H) 을 구할 수도 있고, 그 후, H. 부스팅 (예를 들어, Gentle Boost) 분류자들 (232) 의 일측까지의 거리가 분포에 대해 반복적 약 분류자들 (232) 을 이용하고 이들 약 분류자들을 추가하여 최종 강 분류자 (232) 를 만들 수도 있을 때 쿼리가 구해진다.

일 예에서, SVM 이 이용되면, 업데이트하는 것 (1006) 은 에러 입력 이미지 (214) 또는 에러 ROI 이미지 (226) (예를 들어, 오분류에 대응하는 입력 이미지 (214) 또는 ROI 이미지 (226)) 의 신규 EHD 또는 mEHD 피쳐 벡터 (230) 를 이용하여 하이퍼-플레인의 지원 벡터들을 업데이트하는 것을 포함할 수도 있다. KNN 이 이용되면, 업데이트하는 것 (1006) 은 입력 이미지 (214) 또는 ROI 이미지 (226) 의 신규 EHD 또는 mEHD 피쳐 벡터 (230) 의 피쳐 벡터 (230) 를 데이터베이스에 추가하는 것을 포함할 수도 있다. 부스팅 알고리즘 (예를 들어, Gentle Boost) 이 이용되면, 업데이트하는 것 (1006) 은 에러 입력 이미지 (214) 또는 에러 ROI 이미지 (226) 의 EHD 또는 mEHD 피쳐 벡터 (230) 로 분류자 (232) 를 업데이트하는 것을 포함할 수도 있다.

도 11 은 결정 임계 (246) 를 조정하는 방법 (1100) 을 예시하는 흐름도이다. 방법 (1100) 은 전자 디바이스 (102) 에 의해 수행될 수도 있다. 일 구성에서 방법 (1100) 은 전자 디바이스 (102) 에서의 제 2 피드백 유닛 (242) 에 의해 수행될 수도 있다. 전자 디바이스 (102) 는 표현을 포함하거나 또는 포함하지 않는 것으로 입력 이미지 (214) 를 분류할 수도 있다 (1102). 일 시나리오에서, 전자 디바이스 (102) 는 입력 이미지 (214) 에서의 안면이 특정 표현을 포함하는지의 여부를 결정할 수도 있다. 표현들의 예들은, 웃음, 감은 눈들, 화남, 행복함, 런닝 등을 포함한다.

전자 디바이스 (102) 는 입력 이미지 (214) 의 오분류를 검출할 수도 있다 (1104). 예를 들어, 웃음이 정확하지 않게 검출될 수도 있거나, 또는 눈들이 정확히 떠있을 때 눈들이 감겨졌다는 분류가 결정될 수도 있다. 오분류를 검출하는 것 (1104) 은 카메라를 이용하는 애플리케이션에서 결정 임계 사용자 인터페이스 (244) 를 이용하는 것을 포함할 수도 있다. 예를 들어, 피쳐 (예를 들어, 입력 이미지 (214)) 가 찍힌 후, 결정 임계 사용자 인터페이스 (244) 가 입력 이미지 (214) 및 분류 (예를 들어, 표현 결정 (248)) 를 사용자에게 제공하고 이것이 정확한지를 문의할 수도 있다. 그 후, 사용자는 분류가 정확함을 검증할 기회 또는 오분류를 식별할 기회를 가질 수도 있다. 대안으로서, 오분류는 사용자에 의해 입력 이미지 (214) 의 삭제로부터 추론될 수도 있다. 예를 들어, 입력 이미지 (214) 의 분류가 정확하지 않았다면, 사용자는 입력 이미지 (214) 를 삭제할 수도 있다.

전자 디바이스 (102) 는 오분류에 기초하여 표현에 대한 결정 임계 (246) 를 조정할 수도 있다 (1106). 일 구성에서, 결정 임계 사용자 인터페이스 (244) 는 이들이 결정 임계 (246) 를 조정하여 이미지들 (214) 에서 다소 빈번하게 인식되는 표현을 만들기를 원하는지를 사용자에게 문의할 수도 있다. 예를 들어, 결정 임계 (246) 는 특정 표현을 50% 가능성 (50% likely) 으로 분류하는 것을 행하는 지점에서 시작할 수도 있고, 그 후, 결정 임계 사용자 인터페이스 (244) 에서 수신되는 후속 입력에 기초하여 결정 임계 (246) 를 조정하는 것 (1106) 으로 진행할 수도 있다. 일 구현예에서, 결정 임계 (246) 는 표현 또는 사람에 대해 고유할 수도 있다. 다른 구성에서, 결정 임계 사용자 인터페이스 (244) 는 값을 수동으로 입력함으로써 또는 스크린 (예를 들어, 터치 스크린 (108)) 상에서 바를 슬라이딩함으로써 결정 임계 (246) 를 조정하는 (1106) 옵션을 사용자에게 제공하는 슬라이딩 바를 보여줄 수도 있다.

결정 임계 (246) 에 대한 조정 (1106) 은 이용된 분류자 (232) 의 유형에 의존할 수도 있다. SVM 은 식 (3) 을 이용하여 하이퍼-플레인까지의 부호화된 거리를 계산할 수도 있다.

식 (3) 에서, a_n 은 실제 평가된 계수이고 x_n 은 지원 벡터이다. SVM 가 이용되면, 조정하는 것 (1106) 은 식 (3) 에 미리 정의된 상수항을 가산하거나 감산하는 것을 포함할 수도 있다. KNN 은 K-최인접 이웃들까지의 최소 거리를 계산한다. KNN 이 이용되면, 조정하는 것 (1106) 은 실제 값으로 클래스들 중 하나를 가중처리함으로써 또는 클래스로 최소 허용되는 거리의 미리 정의된 임계를 클래스로 감소 또는 증가시키는 것을 포함할 수도 있다. 부스팅 알고리즘 (예를 들어, Boost 또는 Gentle Boost) 은 식 (4) 에 따라 결정 임계 (264) 를 계산할 수도 있다:

식 (4) 에서, a _i 는 실제 평가된 계수이고, h _i 는 학습된 약 분류자들 중 하나이고, i 는 인덱스이고, N 은 학습된 약 분류자들의 수이다. 부스팅 알고리즘이 이용되면, 전자 디바이스 (102) 는 식 (4) 에서 분류자들의 합을 시프트하도록 미리 정의된 상수를 가산 또는 감산할 수도 있다.

대안으로서, 결정 임계 (246) 는 확률 또는 우도 함수로 분류자 (232) 의 출력을 변환함으로써 임의의 분류 알고리즘에 대하여 변경될 수도 있다. 이러한 면에서, SVM 의 부호화된 거리, 부스팅 알고리즘의 부호화된 거리, 또는 KNN 에 의해 연산되는 거리가 주어지면, 이들 거리 중 어느 것은 식 (5) 를 이용하여 0 과 1 사이의 우도값으로 변환될 수도 있다.

식 (5) 에서, d 는 SVM의 경우 예시적인 식 (3) 또는 부스트의 경우 식 (4) 관련하여 계산된 거리이다. 식 (5) 는 0 과 1 사이의 값으로 된다. 값 0.5 이상은 입력 이미지 (214) 또는 ROI 이미지 (226) 에 존재하는 표현의 일 설정에 할당될 수도 있고 0.5 미만은 그 외의 것을 의미한다. 결정 임계 (246) 를 변경하기 위해, 0.5 보다 낮거나 높은 마진이 선택될 수도 있다.

일 구성에서, 값은 또한 필요에 따라 수치들이 0% 와 100% 사이에서 스케일링하도록 100 과 같은 상수로 곱해질 수도 있다. 결정 임계 (246) 는 이 경우, 초기에 50% 일 것이다. 일 구현예에서, 결정 임계 (246) 는 자동으로 조정될 수도 있다 (예를 들어, 더 낮게 또는 더 높게 이루어질 수도 있다) (1106). 다른 구현예에서, 결정 임계 (246) 는 스크린 상에서 슬라이딩 바를 조정함으로써 사용자에 의해 상호작용적으로 조정될 수도 있다 (1106). 또 다른 구현에에서, 결정 임계 (246) 는 결정 임계 (246) 에 대한 값을 수동으로 입력함으로써 조정될 수도 있다 (1106).

도 12 는 전자 디바이스/무선 디바이스 (1202) 내에 포함될 수도 있는 특정 컴포넌트들을 예시한다. 전자 디바이스/무선 디바이스 (1202) 는 위에 설명된 전자 디바이스 (102) 에 따라 구현될 수도 있다. 전자 디바이스/무선 디바이스 (1202) 는 액세스 단말기, 모바일 스테이션, 사용자 장비 등일 수도 있다. 전자 디바이스/무선 디바이스 (1202) 는 프로세서 (1201) 를 포함한다. 프로세서 (1201) 는 범용 단일칩 또는 다중칩 마이크로프로세서 (예를 들어, ARM (Advanced RISC (Reduced Instruction Set Computer) Machine (ARM))), 특수 목적용 마이크로프로세서 (예를 들어, DSP (digital signal processor)), 마이크로제어기, 프로그램가능 게이트 어레이 등일 수도 있다. 프로세서 (1201) 는 중앙 프로세싱 유닛 (CPU) 으로 지칭될 수도 있다. 도 12 의 전자 디바이스/무선 디바이스 (1202) 에 단일의 프로세서 (1201) 만이 도시되었지만, 다른 대안적인 구성에서, 프로세서들의 조합 (예를 들면, ARM 및 DSP) 이 사용될 수 있다.

전자 디바이스/무선 디바이스 (1202) 는 또한 메모리 (1209) 를 포함한다. 메모리 (1209) 는 전자적 정보를 저장할 수 있는 임의의 전자적 컴포넌트일 수도 있다. 메모리 (1209) 는, 이들의 조합을 포함한, 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 자기 디스크 저장 매체들, 광학 저장 매체, RAM 내의 플래시 메모리 디바이스들, 프로세서와 함께 포함된 온 보드 메모리, 소거가능 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적 소거가능 PROM (EEPROM), 레지스터들 등일 수도 있다.

데이터 (1213a) 및 명령들 (1211a) 은 메모리 (1209) 에 저장될 수도 있다. 명령들 (1211a) 은 본원에서 개시된 방법들을 구현하기 위해 프로세서 (1201) 에 의해 실행될 수도 있다. 명령들 (1211a) 을 실행하는 것은 메모리 (1209) 에 저장되어 있는 데이터 (1213a) 의 이용을 수반한다. 프로세서 (1201) 가 명령들 (1211a) 을 실행할 때, 명령들의 여러 부분들 (1211b) 이 프로세서 (1201) 상에 로딩될 수도 있고, 데이터의 여러 피스들 (1213b) 이 프로세서 (1201) 상에 로딩될 수도 있다.

전자 디바이스/무선 디바이스 (1202) 는 또한 전자 디바이스/무선 디바이스 (1202) 로부터의 신호들의 수신 및 전자 디바이스/무선 디바이스 (1202) 로의 신호들의 송신을 허용하기 위하여 송신기 (1217) 및 수신기 (1219) 를 포함할 수도 있다. 송신기 (1217) 및 수신기 (1219) 는 집합적으로 트랜시버 (1205) 로서 지칭될 수도 있다. 다수의 안테나들 (1207a-n) 이 전기적으로 트랜시버 (1205) 에 전기적으로 커플링될 수도 있다. 전자 디바이스/무선 디바이스 (1202) 는 (도시되지 않은) 복수의 송신기들, 복수의 수신기들, 복수의 트랜시버들 및/또는 추가 안테나들을 또한 포함할 수도 있다.

전자 디바이스/무선 디바이스 (1202) 는 디지털 신호 프로세서 (DSP)(1223) 를 포함할 수도 있다. 전자 디바이스/무선 디바이스 (1202) 는 또한 통신 인터페이스 (1225) 를 포함할 수도 있다. 통신 인터페이스 (1225) 는 사용자가 전자 디바이스/무선 디바이스 (1202) 와 상호작용하도록 허용할 수도 있다.

전자 디바이스/무선 디바이스 (1202) 의 여러 컴포넌트들은 하나 이상의 버스들에 의해 함께 커플링될 수도 있는데, 상기 버스들은 파워 버스, 제어 신호 버스, 상태 신호 버스, 데이터 버스 등을 포함할 수도 있다. 명확화를 위해, 여러 버스들은 도 12 에서 버스 시스템 (1221) 으로서 예시된다.

본원에서 설명된 기술들은 직교 다중화 스킴에 기초한 통신 시스템들을 포함하여 다양한 통신 시스템들에 대해 사용될 수도 있다. 이러한 통신 시스템들의 실시형태들은 OFDMA (Orthogonal Frequency Division Multiple Access) 시스템들, SC-FDMA (Single-Carrier Frequency Division Multiple Access) 시스템들 등을 포함한다. OFDMA 시스템은 OFDM (orthogonal frequency division multiplexing) 을 활용하는데, 이것은 전체 시스템 대역폭을 복수의 직교 서브캐리어들로 분할하는 변조 기술이다. 이들 서브캐리어들은 톤들, 빈들 등으로 또한 지칭될 수도 있다. OFDM 에서, 각각의 서브 캐리어는 데이터와 함께 독립적으로 변조될 수도 있다. SC-FDMA 시스템은 시스템 대역폭에 걸쳐 분배된 서브캐리어들 상에서 송신되는 인터리브된 FDMA (interleaved FDMA; IFDMA), 인접한 서브캐리어들의 블록 상에서 전송되는 국소화된 FDMA (localized FDMA; LFDMA), 또는 인접한 서브캐리어들의 복수의 블록들 상에서 전송되는 향상된 FDMA (enhanced FDMA; EFDMA) 를 활용할 수도 있다. 일반적으로, 변조 심볼들은 OFDM 에 의해 주파수 도메인에서 그리고 SC-FDMA 에 의해 시간 도메인에서 전송된다.

용어 "결정" 은 매우 다양한 작동들을 포괄하므로, "결정" 은 계산, 연산, 프로세싱, 도출, 조사, 룩업 (예를 들어, 테이블, 데이터베이스, 또는 다른 데이터 구조 내에서 룩업), 확인 등을 포함할 수 있다. 또한, "결정" 은 수신 (예를 들어, 정보를 수신), 액세스 (예를 들어, 메모리에서의 데이터에 액세스) 등을 포함할 수 있다. 또한, "결정" 은 해결, 선택, 고르기, 설정하기 등을 포함할 수 있다.

구절 "~에 기초하는" 은 달리 명백히 명시되지 않는 한 "오직 ~에만 기초하는" 을 의미하지 않는다. 즉, 구절 "~에 기초하는" 은 "오직 ~에만 기초하는" 및 "적어도 ~에 기초하는" 양쪽 모두를 기술한다.

용어 "프로세서"는 범용 프로세서, 중앙 프로세싱 유닛 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신 등을 포괄하도록 광의적으로 해석되어야 한다. 일부 상황 하에서, "프로세서"는 주문형 직접 회로 (ASIC), 프로그래밍가능 로직 디바이스 (PLD), 필드 프로그래밍가능 게이트 어레이 (FPGA) 등을 지칭할 수도 있다. 용어 "프로세서"는 프로세싱 디바이스들의 조합, 예를 들어, DSP와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 연계한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성을 지칭할 수도 있다.

용어 "메모리"는 전자적 정보를 저장할 수 있는 임의의 전자적 컴포넌트들을 포괄하도록 광의적으로 해석되어야만 한다. 용어 메모리는 여러 유형들의 프로세서 판독가능한 매체, 이를 테면 RAM (random access memory), ROM (read-only memory), 비휘발성 RAM (NVRAM; non-volatile random access memory), PROM (programmable read-only memory), EPROM (erasable programmable read-only memory), EEPROM (electrically erasable PROM), 플래시 메모리, 자기 또는 광학 데이터 스토리지, 레지스터 등을 지칭할 수도 있다. 메모리는, 프로세서가 이 메모리로부터 정보를 판독하고 이 메모리로 정보를 기록할 수 있다면, 프로세서와 전자적으로 통신하고 있다고 말해진다. 프로세서에 일체형인 메모리는 프로세서와 전자적으로 통신한다.

용어, "명령들" 및 "코드"는 임의의 유형의 컴퓨터 판독가능한 명령문(들)을 포함하도록 광의적으로 해석되어야 한다. 예를 들어, "명령들" 및 "코드"의 용어들은 하나 이상의 프로그램들, 루틴들, 서브루틴들, 함수들, 프로시져들 등을 가리킬 수도 있다. "명령들" 및 "코드"들은 단일의 컴퓨터 판독 가능한 명령문 또는 많은 컴퓨터 판독 가능한 명령문들을 포함할 수도 있다.

본원에서 설명된 기능들은 하드웨어에 의해 실행되는 소프트웨어 또는 펌웨어에서 구현될 수도 있다. 상기 기능들은 컴퓨터 판독가능 매체 상에 하나 이상의 명령들로서 저장될 수도 있다. 용어 "컴퓨터 판독가능 매체" 또는 "컴퓨터 프로그램 제품"은 컴퓨터 또는 프로세서에 의해 액세스될 수 있는 임의의 유형의 저장 매체를 지칭한다. 비제한적인 예로서, 이러한 컴퓨터 판독 가능한 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 요구되는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 이송 또는 저장하기 위해 사용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수도 있다. 본원에서 사용된 디스크 (disk) 및 디스크 (disc) 는 컴팩트 디스크 (CD), 레이저 디스크, 광학 디스크, DVD (digital versatile disc), 플로피 디스크, 및 블루 레이^® 디스크를 포함하며, 여기서 디스크 (disk) 들은 보통 데이터를 자기적으로 재생하는데 반해, 디스크 (disc) 들은 레이저를 이용하여 데이터를 광학적으로 재생한다.

본원에서 개시된 방법들은 상술된 방법을 달성하기 위한 하나 이상의 단계들 또는 액션들을 포함한다. 방법 단계들 및/또는 작동들은 청구항들의 범위를 벗어나지 않으면서 서로 상호 교환될 수도 있다. 즉, 설명된 방법들의 적절한 동작을 위해 단계들 또는 작동들의 특정한 순서가 요구되지 않는 한, 특정한 단계들 및/또는 작동들의 순서 및/또는 이용은 청구항들의 범위를 벗어나지 않으면서 수정될 수도 있다.

또한, 도 3, 도 4, 도 6 및 도 9 내지 도 11 에서 도시된 것들과 같이, 본원에서 설명된 방법들 및 기술들을 수행하기 위한 모듈들 및/또는 다른 적절한 수단들은 다운로드될 수 있고 및/또는 디바이스에 의해 다르게 획득될 수도 있음을 알아야 한다. 예를 들면, 본원에서 설명된 방법들을 수행하기 위한 수단의 전송을 용이하게 하기 위해 서버에 디바이스가 커플링될 수도 있다. 대안으로서, 본원에서 설명된 여러 방법들은 저장 수단 (예를 들면, RAM, ROM, CD (compact disc) 또는 플로피디스크 등과 같은 물리적 저장 매체) 을 통해 제공될 수 있고, 따라서, 저장 수단을 디바이스에 커플링시키거나 제공할 때, 디바이스는 여러 방법들을 얻을 수도 있다.

청구항들이 상기 설명된 정확한 구성 및 컴포넌트들로 제한되는 것이 아님을 이해해야 한다. 청구항들의 범위를 벗어나지 않으면서 본원에 개시된 시스템들, 방법들, 및 장치들의 배열, 동작, 및 세부사항들에 다양한 수정, 변경, 및 변형이 이루어질 수도 있다.

Claims

가변형 표현 검출을 위한 방법으로서,
프리프로세싱된 이미지에서의 각각의 픽셀에 대해, 결합된 부호를 생성하기 위해, 제 1 방향성 구배 성분의 부호 및 제 2 방향성 구배 성분의 부호를 결합하는 단계;
각각의 결합된 부호를 코딩된 값으로 코딩하는 단계; 및
코딩된 값들에 기초하여 입력 이미지에서 표현을 검출하는 단계를 포함하는, 가변형 표현 검출을 위한 방법.
제 1 항에 있어서,
상기 프리프로세싱된 이미지를 생성하기 위해, 상기 입력 이미지를 프리프로세싱하는 단계를 더 포함하고,
상기 입력 이미지를 프리프로세싱하는 단계는,
관심 영역 (ROI; region of interest) 에 기초하여 입력 이미지를 정렬하는 단계;
상기 입력 이미지에서 상기 ROI 를 크롭핑하는 단계;
상기 ROI 를 스케일링하는 단계; 및
상기 ROI의 히스토그램을 평활화 (equalizing) 하는 단계를 포함하는, 가변형 표현 검출을 위한 방법.
제 1 항에 있어서,
방향성 구배 성분들은 정규 직교성인, 가변형 표현 검출을 위한 방법.
제 3 항에 있어서,
상기 방향성 구배 성분들은 수직 및 수평 방향성 구배 성분들 또는 45 도 및 135 도 방향성 구배 성분들인, 가변형 표현 검출을 위한 방법.
제 1 항에 있어서,
상기 코딩하는 단계는 방향성 구배 성분들의 크기의 값을 결정함이 없이 상기 방향성 구배 성분들의 부호들에 기초하여 각각의 결합된 부호를 코딩된 값으로 코딩하는 단계를 포함하는, 가변형 표현 검출을 위한 방법.
제 1 항에 있어서,
상기 표현은 웃음 (smiling), 깜박임 (blinking) 또는 화남 (anger) 을 포함하는, 가변형 표현 검출을 위한 방법.
제 1 항에 있어서,
상기 표현을 검출하는 단계는 머신 학습 알고리즘을 이용하여 피쳐 벡터를 분류하는 단계를 포함하는, 가변형 표현 검출을 위한 방법.
제 7 항에 있어서,
상기 머신 학습 알고리즘은 SVM (Support Vector Machines) 알고리즘, 부스팅 알고리즘 (boosting algorithm) 또는 KNN (K-Nearest Neighbors) 알고리즘인, 가변형 표현 검출을 위한 방법.
제 1 항에 있어서,
분류 에러를 업데이트하는 단계를 더 포함하고,
상기 분류 에러를 업데이트하는 단계는,
입력 이미지가 상기 표현을 포함하거나 또는 포함하지 않는 것으로 분류하는 단계;
상기 입력 이미지의 오분류를 검출하는 단계; 및
상기 오분류에 기초하여 분류자를 업데이트하는 단계를 포함하는, 가변형 표현 검출을 위한 방법.
제 9 항에 있어서,
상기 오분류를 검출하는 단계는,
사용자에게 상기 입력 이미지 및 분류를 제시하는 단계; 및
상기 분류가 정확한지의 여부에 대한 사용자 입력을 수신하는 단계를 포함하는, 가변형 표현 검출을 위한 방법.
제 9 항에 있어서,
상기 오분류를 검출하는 단계는,
분류 후에 사용자에 의한 상기 입력 이미지의 삭제에 기초하여 분류가 정확하지 않다고 결정하는 단계를 포함하는, 가변형 표현 검출을 위한 방법.
제 9 항에 있어서,
상기 업데이트하는 단계는 상기 입력 이미지를 분류하는데 이용되는 분류자의 유형에 기초하는, 가변형 표현 검출을 위한 방법.
제 9 항에 있어서,
상기 분류자는 머신 학습 알고리즘을 이용하는, 가변형 표현 검출을 위한 방법.
제 1 항에 있어서,
결정 임계를 조정하는 단계를 더 포함하고,
상기 결정 임계를 조정하는 단계는,
입력 이미지가 상기 표현을 포함하거나 또는 포함하지 않는 것으로 분류하는 단계;
상기 입력 이미지의 오분류를 검출하는 단계; 및
수동으로 또는 상기 오분류에 기초하여 상기 표현에 대한 결정 임계를 조정하는 단계를 포함하는, 가변형 표현 검출을 위한 방법.
제 14 항에 있어서,
상기 오분류를 검출하는 단계는,
사용자에게 상기 입력 이미지 및 분류를 제시하는 단계; 및
상기 분류가 정확한지의 여부에 대한 사용자 입력을 수신하는 단계를 포함하는, 가변형 표현 검출을 위한 방법.
제 14 항에 있어서,
상기 오분류를 검출하는 단계는,
분류 후에 사용자에 의한 상기 입력 이미지의 삭제에 기초하여 분류가 정확하지 않다고 결정하는 단계를 포함하는, 가변형 표현 검출을 위한 방법.
제 14 항에 있어서,
상기 조정하는 단계는 상기 입력 이미지를 분류하는데 이용되는 분류자의 유형에 기초하는, 가변형 표현 검출을 위한 방법.
제 14 항에 있어서,
수동으로 상기 표현에 대한 결정 임계를 조정하는 단계는, 스크린 상에서 바를 슬라이딩하는 것에 의해 임계를 조정하는 옵션을 사용자에게 제공하는 슬라이딩 바를 보여주거나 또는 값을 수동으로 입력하는 단계를 포함하는, 가변형 표현 검출을 위한 방법.
제 14 항에 있어서,
상기 분류하는 단계는 머신 학습 알고리즘을 이용하여 피쳐 벡터를 분류하는 단계를 포함하는, 가변형 표현 검출을 위한 방법.
가변형 표현 검출을 위한 장치로서,
프로세서;
상기 프로세서와 전자적으로 통신하는 메모리; 및
상기 메모리에 저장된 명령들을 포함하고,
상기 명령들은,
프리프로세싱된 이미지에서의 각각의 픽셀에 대해, 결합된 부호를 생성하기 위해, 제 1 방향성 구배 성분의 부호 및 제 2 방향성 구배 성분의 부호를 결합하고;
각각의 결합된 부호를 코딩된 값으로 코딩하고; 그리고
코딩된 값들에 기초하여 입력 이미지에서 표현을 검출하도록 실행가능한, 가변형 표현 검출을 위한 장치.
제 20 항에 있어서,
방향성 구배 성분들은 정규 직교성인, 가변형 표현 검출을 위한 장치.
제 20 항에 있어서,
상기 메모리에 저장된, 상기 코딩하도록 실행가능한 명령들은, 방향성 구배 성분들의 크기의 값을 결정함이 없이 상기 방향성 구배 성분들의 부호들에 기초하여 각각의 결합된 부호를 코딩된 값으로 코딩하도록 실행가능한 명령들을 포함하는, 가변형 표현 검출을 위한 장치.
제 20 항에 있어서,
입력 이미지가 상기 표현을 포함하거나 또는 포함하지 않는 것으로 분류하고;
상기 입력 이미지의 오분류를 검출하고; 그리고
상기 오분류에 기초하여 분류자를 업데이트하도록 실행가능한 명령들을 더 포함하는, 가변형 표현 검출을 위한 장치.
제 23 항에 있어서,
상기 오분류를 검출하도록 실행가능한 명령들은,
사용자에게 상기 입력 이미지 및 분류를 제시하고; 그리고
상기 분류가 정확한지의 여부에 대한 사용자 입력을 수신하도록 실행가능한 명령들을 포함하는, 가변형 표현 검출을 위한 장치.
제 23 항에 있어서,
상기 오분류를 검출하도록 실행가능한 명령들은 분류 후에 사용자에 의한 상기 입력 이미지의 삭제에 기초하여 분류가 정확하지 않다고 결정하도록 실행가능한 명령들을 포함하는, 가변형 표현 검출을 위한 장치.
제 20 항에 있어서,
입력 이미지가 상기 표현을 포함하거나 또는 포함하지 않는 것으로 분류하고;
상기 입력 이미지의 오분류를 검출하고; 그리고
수동으로 또는 상기 오분류에 기초하여 상기 표현에 대한 결정 임계를 조정하도록 실행가능한 명령들을 더 포함하는, 가변형 표현 검출을 위한 장치.
제 26 항에 있어서,
상기 오분류를 검출하도록 실행가능한 명령들은,
사용자에게 상기 입력 이미지 및 분류를 제시하고; 그리고
상기 분류가 정확한지의 여부에 대한 사용자 입력을 수신하도록 실행가능한 명령들을 포함하는, 가변형 표현 검출을 위한 장치.
제 26 항에 있어서,
상기 오분류를 검출하도록 실행가능한 명령들은 분류 후에 사용자에 의한 상기 입력 이미지의 삭제에 기초하여 분류가 정확하지 않다고 결정하도록 실행가능한 명령들을 포함하는, 가변형 표현 검출을 위한 장치.
제 26 항에 있어서,
수동으로 상기 표현에 대한 결정 임계를 조정하도록 실행가능한 명령들은, 스크린 상에서 바를 슬라이딩하는 것에 의해 임계를 조정하는 옵션을 사용자에게 제공하는 슬라이딩 바를 보여주거나 또는 값을 수동으로 입력하도록 실행가능한 명령들을 포함하는, 가변형 표현 검출을 위한 장치.
가변형 표현 검출을 위한 장치로서,
프리프로세싱된 이미지에서의 각각의 픽셀에 대해, 결합된 부호를 생성하기 위해, 제 1 방향성 구배 성분의 부호 및 제 2 방향성 구배 성분의 부호를 결합하는 수단;
각각의 결합된 부호를 코딩된 값으로 코딩하는 수단; 및
코딩된 값들에 기초하여 입력 이미지에서 표현을 검출하는 수단을 포함하는, 가변형 표현 검출을 위한 장치.
제 30 항에 있어서,
방향성 구배 성분들은 정규 직교성인, 가변형 표현 검출을 위한 장치.
제 30 항에 있어서,
상기 코딩하는 수단은 방향성 구배 성분들의 크기의 값을 결정함이 없이 상기 방향성 구배 성분들의 부호들에 기초하여 각각의 결합된 부호를 코딩된 값으로 코딩하는 수단을 포함하는, 가변형 표현 검출을 위한 장치.
제 30 항에 있어서,
입력 이미지가 상기 표현을 포함하거나 또는 포함하지 않는 것으로 분류하는 수단;
상기 입력 이미지의 오분류를 검출하는 수단; 및
상기 오분류에 기초하여 분류자를 업데이트하는 수단을 더 포함하는, 가변형 표현 검출을 위한 장치.
제 33 항에 있어서,
상기 오분류를 검출하는 수단은,
사용자에게 상기 입력 이미지 및 분류를 제시하는 수단; 및
상기 분류가 정확한지의 여부에 대한 사용자 입력을 수신하는 수단을 포함하는, 가변형 표현 검출을 위한 장치.
제 33 항에 있어서,
상기 오분류를 검출하는 수단은,
분류 후에 사용자에 의한 상기 입력 이미지의 삭제에 기초하여 분류가 정확하지 않다고 결정하는 수단을 포함하는, 가변형 표현 검출을 위한 장치.
제 30 항에 있어서,
입력 이미지가 상기 표현을 포함하거나 또는 포함하지 않는 것으로 분류하는 수단;
상기 입력 이미지의 오분류를 검출하는 수단; 및
수동으로 또는 상기 오분류에 기초하여 상기 표현에 대한 결정 임계를 조정하는 수단을 더 포함하는, 가변형 표현 검출을 위한 장치.
제 36 항에 있어서,
상기 오분류를 검출하는 수단은,
사용자에게 상기 입력 이미지 및 분류를 제시하는 수단; 및
상기 분류가 정확한지의 여부에 대한 사용자 입력을 수신하는 수단을 포함하는, 가변형 표현 검출을 위한 장치.
제 36 항에 있어서,
상기 오분류를 검출하는 수단은,
분류 후에 사용자에 의한 상기 입력 이미지의 삭제에 기초하여 분류가 정확하지 않다고 결정하는 수단을 포함하는, 가변형 표현 검출을 위한 장치.
제 36 항에 있어서,
수동으로 상기 표현에 대한 결정 임계를 조정하는 수단은, 스크린 상에서 바를 슬라이딩하는 것에 의해 임계를 조정하는 옵션을 사용자에게 제공하는 슬라이딩 바를 보여주거나 또는 값을 수동으로 입력하는 수단을 포함하는, 가변형 표현 검출을 위한 장치.
가변형 표현 검출을 위한 명령들을 저장하고 있는 컴퓨터-판독가능 저장 매체로서,
상기 명령들은,
전자 디바이스로 하여금, 프리프로세싱된 이미지에서의 각각의 픽셀에 대해, 결합된 부호를 생성하기 위해, 제 1 방향성 구배 성분의 부호 및 제 2 방향성 구배 성분의 부호를 결합하게 하는 코드;
상기 전자 디바이스로 하여금, 각각의 결합된 부호를 코딩된 값으로 코딩하게 하는 코드; 및
상기 전자 디바이스로 하여금, 코딩된 값들에 기초하여 입력 이미지에서 표현을 검출하게 하는 코드를 포함하는, 컴퓨터-판독가능 저장 매체.
제 40 항에 있어서,
방향성 구배 성분들은 정규 직교성인, 컴퓨터-판독가능 저장 매체.
제 40 항에 있어서,
상기 전자 디바이스로 하여금, 각각의 결합된 부호를 코딩하게 하는 코드는, 상기 전자 디바이스로 하여금, 방향성 구배 성분들의 크기의 값을 결정함이 없이 상기 방향성 구배 성분들의 부호들에 기초하여 각각의 결합된 부호를 코딩된 값으로 코딩하게 하는 코드를 포함하는, 컴퓨터-판독가능 저장 매체.
제 40 항에 있어서,
상기 전자 디바이스로 하여금, 입력 이미지가 상기 표현을 포함하거나 또는 포함하지 않는 것으로 분류하게 하는 코드;
상기 전자 디바이스로 하여금, 상기 입력 이미지의 오분류를 검출하게 하는 코드; 및
상기 전자 디바이스로 하여금, 상기 오분류에 기초하여 분류자를 업데이트하게 하는 코드를 더 포함하는, 컴퓨터-판독가능 저장 매체.
제 43 항에 있어서,
상기 전자 디바이스로 하여금, 상기 오분류를 검출하게 하는 코드는,
상기 전자 디바이스로 하여금, 사용자에게 상기 입력 이미지 및 분류를 제시하게 하는 코드; 및
상기 전자 디바이스로 하여금, 상기 분류가 정확한지의 여부에 대한 사용자 입력을 수신하게 하는 코드를 포함하는, 컴퓨터-판독가능 저장 매체.
제 43 항에 있어서,
상기 전자 디바이스로 하여금, 상기 오분류를 검출하게 하는 코드는,
상기 전자 디바이스로 하여금, 분류 후에 사용자에 의한 상기 입력 이미지의 삭제에 기초하여 분류가 정확하지 않다고 결정하게 하는 코드를 포함하는, 컴퓨터-판독 가능 저장 매체.
제 40 항에 있어서,
상기 전자 디바이스로 하여금, 입력 이미지가 상기 표현을 포함하거나 또는 포함하지 않는 것으로 분류하게 하는 코드;
상기 전자 디바이스로 하여금, 상기 입력 이미지의 오분류를 검출하게 하는 코드; 및
상기 전자 디바이스로 하여금, 수동으로 또는 상기 오분류에 기초하여 상기 표현에 대한 결정 임계를 조정하게 하는 코드를 더 포함하는, 컴퓨터-판독가능 저장 매체.
제 46 항에 있어서,
상기 전자 디바이스로 하여금, 상기 오분류를 검출하게 하는 코드는,
상기 전자 디바이스로 하여금, 사용자에게 상기 입력 이미지 및 분류를 제시하게 하는 코드; 및
상기 전자 디바이스로 하여금, 상기 분류가 정확한지의 여부에 대한 사용자 입력을 수신하게 하는 코드를 포함하는, 컴퓨터-판독가능 저장 매체.
제 46 항에 있어서,
상기 전자 디바이스로 하여금, 상기 오분류를 검출하게 하는 코드는,
상기 전자 디바이스로 하여금, 분류 후에 사용자에 의한 상기 입력 이미지의 삭제에 기초하여 분류가 정확하지 않다고 결정하게 하는 코드를 포함하는, 컴퓨터-판독가능 저장 매체.
제 46 항에 있어서,
수동으로 상기 표현에 대한 결정 임계를 조정하는 코드는, 스크린 상에서 바를 슬라이딩하는 것에 의해 임계를 조정하는 옵션을 사용자에게 제공하는 슬라이딩 바를 보여주거나 또는 값을 수동으로 입력하는 코드를 포함하는, 컴퓨터-판독가능 저장 매체.