KR20140076632A - 얼굴 검출을 이용한 이미지 재구성 - Google Patents

얼굴 검출을 이용한 이미지 재구성 Download PDF

Info

Publication number
KR20140076632A
KR20140076632A KR1020147013538A KR20147013538A KR20140076632A KR 20140076632 A KR20140076632 A KR 20140076632A KR 1020147013538 A KR1020147013538 A KR 1020147013538A KR 20147013538 A KR20147013538 A KR 20147013538A KR 20140076632 A KR20140076632 A KR 20140076632A
Authority
KR
South Korea
Prior art keywords
image
regions
face
combined padding
padding
Prior art date
Application number
KR1020147013538A
Other languages
English (en)
Other versions
KR101605983B1 (ko
Inventor
레이먼드 윌리엄 푸차
Original Assignee
인텔렉츄얼 벤처스 펀드 83 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔렉츄얼 벤처스 펀드 83 엘엘씨 filed Critical 인텔렉츄얼 벤처스 펀드 83 엘엘씨
Publication of KR20140076632A publication Critical patent/KR20140076632A/ko
Application granted granted Critical
Publication of KR101605983B1 publication Critical patent/KR101605983B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/741Circuitry for compensating brightness variation in the scene by increasing the dynamic range of the image compared to the dynamic range of the electronic image sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/22Cropping

Abstract

인간의 얼굴을 포함한 디지털 이미지의 개별 영역을 자동으로 식별하고, 조합된 패딩 영역을 형성하고, 각각의 상기 조합된 패딩 영역에 대한 적합성 스코어 계산을 비롯하여 각 영역을 자동으로 평가하고, 적합성 스코어가 기지의 임계치 미만인 적어도 하나의 상기 조합된 패딩 영역을 무시하는 컴퓨팅 시스템.

Description

얼굴 검출을 이용한 이미지 재구성{IMAGE RECOMPOSITION USING FACE DETECTION}
본 발명은 디지털 이미지 강화에 관한 것으로, 특히 디지털 이미지 내의 얼굴의 위치 및 크기를 이용하여 디지털 이미지의 만족한 구성(pleasing composition)을 자동으로 생성하는 방법 및 장치에 관한 것이다.
사진, 특히 디지털 사진 분야에 있어서, 아마추어 사진사는 만족한 구성의 사진을 촬영하는 방법에 대하여 거의 또는 전혀 훈련을 받지 않는다. 그들이 촬영한 결과적인 사진은 종종 서투르게 이루어진다. 만일 사진사가 최초의 장소에서 촬영하기 원하는 샷을 표현하기 위해 디지털 이미지 처리 알고리즘에 의해 원래의 샷을 재구성할 수 있으면 유익할 것이다. 또한, 사진사가 만족한 구성을 촬영한 경우에도, 종횡비가 다른 사진을 디스플레이 또는 인쇄하는 것이 종종 바람직하다. 이것은 전형적으로 디지털 사진을 디지털식으로 크로핑(cropping)함으로써 달성된다. 예를 들면, 다수의 소비자 디지털 카메라는 4:3의 종횡비를 갖지만, 다수의 새로운 텔레비전은 16:9의 종횡비를 갖는다. 4:3 종횡비를 16:9 종횡비로 (콘텐트에 상관없이) 무차별적으로 트리밍하는 작업은 종종 이미지의 상부 및 하부에서 이미지 콘텐트를 제거하고, 그래서 이미지 내의 사람의 얼굴을 잘라내거나 그렇지 않으면 주요 피사체의 일부를 불명료하게 할 수 있다. 현재는 스마트폰을 이용하여 이미지를 캡처하는 것이 일반적이다. 카메라를 가로(landscape) 또는 세로(portrait) 방향으로 유지하여, 캡처된 화상의 종횡비를 상당량 변화시킬 수 있다. 또한, 이 사진을 친구와 공유한 후에, 친구의 컴퓨터에서 또는 다른 장치에서 그 이미지를 열 때, 디스플레이 장치 또는 디스플레이된 사진의 종횡비가 다시 달라지는 경우가 종종 있다. 또한, 이미지를 소셜 웹사이트에 업로드하면 그 이미지를 다시 바람직하지 않은 방식으로 크로핑할 수 있다. 상기 예들은 모두 여기에서 설명하는 본 발명으로부터 이익을 취할 수 있는 경우들을 나타낸다.
디지털 정지 이미지의 주요 피사체로 결정된 것을 추출하기 위한 몇 가지 주요 피사체 검출 알고리즘이 프로그램되어 있다. 예를 들면, 미국 특허 제6,282,317호에는 디지털 이미지를 복수의 영역으로 자동으로 세분하고 이미지 내 각 화소(pixel)의 중요도에 대응하는 빌리프 맵(belief map)을 작성하는 방법에 대하여 개시되어 있다. 주요 피사체 영역은 빌리프 맵에서 최고치를 갖는다. 이 빌리프 맵을 이용해서, 더 만족한 구성 또는 입력 이미지의 다른 종횡비로의 양호한 재구성이 종종 달성될 수 있다. 그러나, 복잡한 룰과 복잡한 학습 기법을 이용함에도 불구하고, 주요 피사체는 종종 잘못 표시되고(mislabeled) 알고리즘의 연산 복잡도가 일반적으로 매우 상당하다.
심미적으로 만족한 디지털 이미지의 구성을 생성하기 위한 더 강력하고 덜 연산 집약적인 알고리즘을 작성하는 것이 바람직하다. 소비자 사진에 있어서, 사람의 얼굴이 소비자에게 가장 중요한 요소라는 것이 조사에 의해 밝혀졌다. 얼굴 검출 알고리즘은 디지털 카메라 및 PC에서 보편적이며, 그 속도는 통상의 PC에서 50ms 미만이다. 몇 가지 주요 피사체 검출 알고리즘은 이것에 편승하여 종종 인간의 얼굴 영역을 고 우선순위 영역으로서 취급한다. 예를 들면, 미국 특허 제6,940,545호에는 자동 얼굴 검출 알고리즘이 개시되어 있고, 또한 상기 얼굴의 크기 및 위치가, 측정된 변수들을 오토 줌 크롭 알고리즘에 공급하는 법에 대하여 개시되어 있다. 미국 특허 제7,317,815호에는 크로핑을 위해서뿐만 아니라, 포커스, 톤 스케일링(tone scaling), 구조 및 노이즈에 대하여 얼굴 검출 정보를 이용하는 장점이 개시되어 있다. 얼굴 검출 정보가 기존의 주요 피사체 검출 알고리즘과 함께 제공될 때, 결과적인 유익한 성능이 향상된다. 유감스럽게도, 비록 이러한 개선이 전반적으로 더욱 만족한 기여를 가져왔지만, 사람의 얼굴이 다른 이미지 컴포넌트보다 훨씬 더 중요하다는 것을 인식하지는 못한다. 그 결과, 이들 알고리즘은 얼굴 정보를 적절히 통합하지 못하고, 그 대신에 다른 주요 피사체 예측자(predictor)를 강조한다. 기본적인 실례에 있어서, 얼굴 정보는 얼굴 크기 및 위치로 제한될 수 있지만, 더 우수한 성능을 위해 얼굴 정보는 얼굴 포즈(pose), 깜박임, 눈의 시선, 표정, 노출, 선예도(sharpness) 및 피사체 상호관계성(interrelationship)을 포함하도록 확장될 수 있다. 만일 이미지에서 얼굴이 발견되지 않으면, 또는 발견된 얼굴이 부적절한 것으로 간주되면, 그때만 심미적으로 만족한 구성을 배치하기 위한 양호한 전략을, 주요 피사체 검출 알고리즘으로 다시 복귀시킨다.
복잡한 디지털 얼굴 정보를 만족한 구성으로 자동으로 변환하는 방법 및 장치가 필요하다. 이러한 목표를 달성하도록 설계된 효과적인 알고리즘이 더욱 강력한 성능을 더 낮은 CPU 비용으로 구성할 것이다.
본 발명의 양호한 실시형태는 컴퓨팅 시스템을 포함하고, 이 컴퓨팅 시스템은, 디지털 이미지를 저장하기 위한 전자 메모리와, 상기 메모리에 액세스하여, 디지털 이미지에서 각각 인간의 얼굴을 포함하는 임의의 개별 영역을 식별하며, 각각의 상기 개별 영역을 패딩(padding)하고, 하나 이상의 개별 패딩 영역을 각각 포함하는 2개 이상의 조합된 패딩 영역을 디지털식으로 규정하고, 각각의 조합된 패딩 영역에 적합성 스코어(fitness score)를 할당하는 것을 비롯해서 각각의 조합된 패딩 영역을 자동으로 평가하고, 적합성 스코어가 기지의 임계치보다 낮은 적어도 하나의 조합된 패딩 영역을 무시하는 프로세서를 구비한다. 적어도 하나의 조합된 영역의 각 테두리(border)는 상기 개별 영역의 적어도 하나의 테두리와 동일선상(collinear)에 있도록 선택된다. 상기 프로세서는 적어도 하나의 조합된 영역이 엄격한 3등분의 룰(rule of thirds)을 만족시키도록 디지털 이미지를 자동으로 수정하는 프로그램을 포함한다.
본 발명의 다른 양호한 실시형태는 컴퓨팅 시스템을 포함하고, 이 컴퓨팅 시스템은, 디지털 이미지를 저장하기 위한 전자 메모리와, 상기 디지털 이미지에 액세스하여, 디지털 이미지에서 인간의 얼굴을 포함한 적어도 하나의 개별 영역을 식별하고, 2개 이상의 개별 영역을 각각 패딩하고, 하나 이상의 개별 패딩 영역을 각각 포함하는 2개 이상의 조합된 패딩 영역을 디지털식으로 규정하고, 각각의 조합된 패딩 영역에 적합성 스코어를 할당하는 것을 비롯해서 상기 조합된 패딩 영역을 각각 자동으로 평가하고, 상기 조합된 패딩 영역 중 최고의 스코어를 갖는 영역이 대강의 3등분의 룰을 만족시키도록 디지털 이미지를 자동으로 수정하는 프로세서를 구비한다. 상기 프로세서는 대강의 3등분의 룰을 만족시키도록 상기 조합된 패딩 영역 중 복수의 최고 스코어 영역의 가중된 중심을 이용하는 프로그램을 포함하고, 상기 가중된 중심은 가중된 중심의 위치가 상기 조합된 패딩 영역의 스코어에 비례하여 상기 조합된 패딩 영역 중 스코어가 높은 영역의 중심에 비례적으로 더 근접하도록 상기 조합된 패딩 영역 중 복수의 최고 스코어 영역의 적합성 스코어에 의해 규정된다.
본 발명의 다른 양호한 실시형태는 컴퓨팅 시스템을 포함하고, 이 컴퓨팅 시스템은, 디지털 이미지를 저장하기 위한 전자 메모리와, 디지털 이미지에서 각각 인간의 얼굴을 포함한 임의의 개별 영역을 식별하고, 2개 이상의 상기 개별 영역을 각각 패딩하고, 하나 이상의 개별 패팅 영역을 각각 포함하는 2개 이상의 조합된 패딩 영역을 디지털식으로 규정하고, 수정된 디지털 이미지의 출력 종횡비에 대한 요청을 수신하고, 각각의 조합된 패딩 영역에 적합성 스코어를 할당하는 것을 비롯해서 상기 각각의 조합된 패딩 영역을 자동을 평가하고, 상기 조합된 패딩 영역 모두가 상기 요청된 출력 종횡비 포맷에 맞지 않은 경우에는 상기 조합된 패딩 영역 중 하나 이상의 최저 스코어의 영역을 무시하는 프로세서를 구비한다. 이 실시형태는 얼굴 주위의 패딩이 입력 및 출력 종횡비로서 변화하고, 저 우선순위 경계 박스(bounding box)가 만족한 구성 룰로 한정되며, 입력 디지털 이미지가 이미 크로핑 또는 리샘플링되었다고 결정된 경우에는 저 우선순위 경계 박스가 감쇠되고, 소프트카피 뷰잉 환경에서 구성, 피사체 또는 피사체의 클러스터에 기초하여 각각 심미적으로 만족한 복수의 출력 이미지를 디스플레이하는 추가의 장점을 갖는다.
본 발명의 상기 및 다른 양태 및 목적은 이하의 설명 및 첨부 도면과 함께 고려할 때 더 잘 이해될 것이다. 그러나, 본 발명의 양호한 실시형태 및 그 여러 가지 특정의 세부를 나타내는 이하의 설명은 단지 예시하는 것이고 제한하는 의도가 없다는 것을 이해하여야 한다. 예를 들면, 상기의 개요적 설명은 요소들이 상호 교환적이지 않은 개별적인 별도의 실시형태를 설명하는 것이 아니다. 사실, 특정 실시형태와 관련하여 설명한 많은 요소들은 다른 개시된 실시형태의 요소들과 함께 및 아마도 상호 교환적으로 사용될 수 있다. 본 발명의 정신으로부터 벗어나지 않고 본 발명의 범위 내에서 많은 변경 및 수정이 이루어질 수 있고, 본 발명은 그러한 모든 수정을 포함한다. 첨부 도면은 상대적 크기, 각도 관계, 또는 상대적 위치에 대하여 어떤 정밀 축척으로 작도된 것이 아닐 뿐만 아니라 실제 구현 예의 상호 교환성, 대체성 또는 대표성과 관련한 임의의 종합적 관계를 작도한 것으로 의도되지 않는다.
전술한 실시형태 외에 다른 실시형태가 첨부 도면을 참조함으로써 및 이하의 상세한 설명을 읽음으로써 명백하게 될 것이다.
본 발명의 양호한 실시형태는 첨부 도면과 함께 이하에서 제공되는 예시적인 실시형태의 상세한 설명으로부터 더 쉽게 이해할 수 있을 것이다.
도 1은 본 발명의 양호한 실시형태에 따른, 디지털 이미지를 수정하기 위한 장치 및 시스템의 각종 구성요소들을 보인 도이다.
도 2는 본 발명의 양호한 실시형태에 따른, 디지털 이미지를 수정하기 위한 컴퓨터 시스템 실시형태를 보인 도이다.
도 3은 본 발명의 실시형태에 따른, 디지털 이미지의 자동 재구성의 단계적인 예를 보인 도이다.
도 4는 본 발명의 실시형태에 따른, 디지털 이미지의 자동 재구성의 다른 예를 보인 도이다.
도 5a 내지 도 5c는 본 발명의 실시형태에 따른 알고리즘을 보인 도이다.
도 6a 및 도 6b는 본 발명의 실시형태에 따른 단계적 알고리즘을 보인 도이다.
도 7은 본 발명의 실시형태에 따른 단계적 알고리즘을 보인 도이다.
도 8은 본 발명의 실시형태에 따른 단계적 알고리즘을 보인 도이다.
도 9는 본 발명의 실시형태에 따른 단계적 알고리즘을 보인 도이다.
도 10은 본 발명의 실시형태에 따른 단계적 알고리즘을 보인 도이다.
도 11은 본 발명의 실시형태에 따른 패딩 함수를 보인 도이다.
도 12는 본 발명의 실시형태에 따른 패딩 예를 보인 도이다.
도 13은 본 발명의 실시형태에 따른 패딩 예를 보인 도이다.
도 14는 본 발명의 실시형태에 따른 패딩 예를 보인 도이다.
도 15는 본 발명의 실시형태에 따른 패딩 예를 보인 도이다.
도 16은 본 발명의 실시형태에 따른 하부 패딩 함수를 보인 도이다.
도 17은 본 발명의 실시형태에 따른 하부 패딩 함수를 보인 도이다.
도 18은 본 발명의 실시형태에 따른 하부 패딩 함수의 예를 보인 도이다.
본 발명의 양호한 실시형태는 입력 디지털 이미지의 만족한 재구성을 결정 및 생성하는 전자동 수단의 시스템, 장치, 알고리즘 및 방법을 설명한다. 이들은 임의 종횡비의 입력 디지털 이미지가 주어지면 임의의 원하는(사용자가 요청한) 출력 종횡비에 적용 가능하다. 만일 원하는 출력 종횡비가 주어진 입력 종횡비와 일치하면, 줌형 재구성에 대한 결정이 고려될 수 있다. 만일 원하는 출력 종횡비가 주어진 입력 종횡비와 다르면, 이것은 강제적(constrained) 재구성을 고려할 수 있다. 만일 출력 종횡비가 비강제적이면, 이것은 비강제적 재구성을 고려할 수 있다. 이러한 자동 재구성에 대해 여기에 설명한다.
도 1은 본 발명의 양호한 실시형태를 구현하기 위한 컴퓨팅 시스템을 일반적인 개략 형태로 보인 것이다. 전자 장치 및 처리 시스템(100)이 디지털 이미지를 자동으로 재구성하기 위해 사용된다. 도 1에 도시된 양호한 실시형태에 있어서, 전자 컴퓨팅 시스템(100)은 하우징(125)과, 데이터 파일(109)을 포함한 로컬 메모리 또는 스토리지와, 선택적인 원격 사용자 입력 장치(102-104)와, 로컬(local) 사용자 입력 장치(118-119)와, 선택적인 원격 출력 시스템(106), 및 로컬 출력 시스템(117)을 포함하고, 이 전자 장치들 모두는 프로세서 시스템(116)에 배선 접속되거나, 선택적으로 통신 시스템(115)을 거쳐 Wi-Fi 또는 셀룰러를 통해 프로세서 시스템(116)에 무선으로 접속된다. 출력 시스템(106, 117)은 디스플레이 화면 및 오디오 스피커를 나타낸다. 이러한 디스플레이 및 스피커가 독립형 장치로서 도시되고 있지만, 이들 각각은 스마트폰과 같은 휴대형 컴퓨팅 시스템에 통합될 수도 있다. 컴퓨터 시스템(100)은 출력 디스플레이(106, 117)를 구동하기 위한 전용 그래픽 서브시스템을 포함할 수 있다. 출력 디스플레이는 CRT 디스플레이, LCD, LED, 또는 다른 형태를 포함할 수 있다. 통신 시스템(115)과 원격 I/O 장치 간의 접속은 또한 처리 시스템(116)에 대한 로컬 네트워크 및 인터넷(네트워크) 접속을 나타내는 것이다. 수동으로 또는 자동으로, 여기에서 설명하는 알고리즘에 의해 생성되는 최종 형태의 각종 출력물(output product)은 디지털 전자 디스플레이에서의 최종 출력으로서만 선택적으로 의도되고, 여기에서 예시적인 디스플레이로서 묘사되는 예를 들면 출력 시스템(106, 117)에서 인쇄되는 것으로 의도되지 않으며, 첨부 도면에서의 표시에 의해 암시되는 크기 또는 구조로 제한되지 않는다. 선택적인 원격 메모리 시스템(101)은 네트워크 액세스 가능한 스토리지, 및 클라우드 컴퓨팅 기술을 구현하기 위해 사용되는 것과 같은 스토리지를 나타낼 수 있다. 도 1에 도시된 원격 및 로컬 스토리지(또는 메모리)는, 처리 시스템(116)이 여기에서 설명하는 알고리즘을 실행하기에 충분한 컴퓨터 프로그램 및 데이터를 저장하기 위해 필요에 따라 사용될 수 있다. 데이터 시스템(109), 사용자 입력 시스템(102-104, 118-119) 또는 출력 시스템(106, 117), 및 처리 시스템(116)은 하우징(125) 내에 배치될 수 있고, 또는 다른 양호한 실시형태에서는 전체적으로 또는 부분적으로 하우징(125)의 외부에 개별적으로 배치될 수 있다.
데이터 시스템(109)은 프로세서 시스템(116)에 디지털 데이터를 공급할 수 있는 임의 형태의 전자 또는 기타 회로나 시스템을 포함할 수 있는데, 프로세서는 이들로부터 디지털 이미지의 구성을 자동으로 개선하는데 사용하는 디지털 이미지에 액세스할 수 있다. 이와 관련하여, 시스템(109)으로부터 전달되는 데이터 파일은, 비제한적인 예를 들자면, 프로그램, 정지 이미지, 이미지 시퀀스, 영상, 그래픽, 멀티미디어, 및 슬라이드쇼와 같은 기타 디지털 이미지 및 오디오 프로그램을 포함할 수 있다. 도 1의 양호한 실시형태에 있어서, 데이터 파일의 소스는 센서 소자(107)에 의해 제공된 것들, 통신 시스템(115)으로부터 수신된 데이터, 및 시스템(109)을 통하여 프로세서 시스템(116)에 연결된 각종의 착탈식 또는 내부 메모리 및 스토리지 장치를 또한 포함한다.
센서(107)는 선택적이고, 광센서, 오디오 센서, 이미지 캡처 장치, 생체인식 센서, 및 시스템(116) 환경 내의 상태를 검출 및 기록하고 그 정보를 프로세서 시스템(116)이 사용하는 디지털 형태로 변환하기 위해 사용될 수 있는 공지된 다른 센서를 포함할 수 있다. 센서(107)는 디지털 정지 이미지 또는 영상 이미지를 캡처하도록 구성된 하나 이상의 센서(108)를 또한 포함할 수 있다. 센서(107)는 인간의 자발적 및 비자발적 신체 반응을 측정하기 위한 생체인식 또는 다른 센서를 또한 포함할 수 있고, 그러한 센서는, 비제한적인 예를 들자면, 음성 억양 검출, 신체 운동, 안구 운동, 동공 팽창, 체온, 및 p10900 웨이브 센서를 포함한다.
스토리지/메모리 시스템(109)은 솔리드 스테이트, 자기, HDD, 광학 또는 기타 데이터 스토리지 장치와 같은 종래의 메모리 장치, 및 분리형 또는 고정형 스토리지 매체를 판독하는 회로를 포함할 수 있다. 스토리지/메모리 시스템(109)은 HDD 및 플로피 디스크 드라이브와 같이, 시스템(100) 내에 고정될 수도 또는 분리될 수도 있다. 도 1에 도시된 실시형태에 있어서, 시스템(100)은 하드 디스크 드라이브(HDD)(110), 광학, 자기 또는 전용 디스크 드라이브와 같은 분리형 디스크용 디스크 드라이브(111), 및 분리형 메모리 카드, USB 섬(thumb) 드라이브, 또는 기타 핸드헬드 휴대용 메모리 장치와 같은 휴대용의 분리형 메모리 장치(112)용의 슬롯(114)을 구비하는 것으로 도시되어 있고, 이들 요소는 메모리 슬롯(114)을 통하여 통신하는 분리형 메모리 인터페이스(113)를 가질 수도 있고 갖지 않을 수도 있는 카메라 또는 기타 휴대형 장치의 내부에 설치될 수 있는 것들을 포함한다. 비록 도시를 생략하였지만, 메모리 인터페이스(113)는 메모리 장치(112)를 슬롯(114)에 접속하기 위한 와이어를 또한 나타낸다. 비제한적인 예로서 제어 프로그램, 디지털 이미지, 응용 프로그램, 메타데이터, 정지 이미지, 이미지 시퀀스, 영상, 그래픽, 멀티미디어, 및 컴퓨터 생성 이미지를 포함한 데이터는 원격 메모리 시스템(101)에 저장될 수도 있고, 퍼스널 컴퓨터, 네트워크 서버, 컴퓨터 네트워크, 또는 클라우드 컴퓨터 시스템과 같은 기타 디지털 시스템에 국소적으로 저장될 수도 있다. 원격 시스템(101)이 프로세서 시스템(116)에 무선으로 연결된 것으로 도시되어 있지만, 원격 시스템(101)은 유선 네트워크 접속을 통해 또는 무선과 유선의 혼합으로 연결될 수도 있다.
도 1에 도시된 실시형태에 있어서, 시스템(100)은 이 실시형태에서 선택적 원격 메모리 시스템(101), 선택적 원격 디스플레이(106), 및/또는 선택적 원격 입력 장치(102-104)와 통신하기 위해 사용될 수 있는 통신 시스템(115)을 포함한다. 원격 디스플레이(106) 및/또는 원격 입력 제어 장치(102-104)를 포함한 원격 입력 스테이션은 도시된 것처럼 통신 시스템(115)과 무선으로 통신할 수도 있고, 또는 유선 네트워크로서 통신할 수도 있다. 로컬 디스플레이 시스템(117) 및 로컬 입력 장치 중의 어느 하나 또는 양자를 포함하는 로컬 입력 스테이션은 유선 접속(도시됨)을 이용해서 또는 Wi-Fi 또는 적외선 송신과 같은 무선 접속을 이용해서 프로세서 시스템(116)에 접속될 수 있다.
통신 시스템(115)은 예를 들면 이미지 및 기타 데이터를, 광학 신호, 고주파수 신호 또는 다른 형태의 신호를 이용하여, 디지털 수신 장치와 함께 구성된 원격 메모리 시스템(101) 또는 원격 디스플레이 장치(106)와 같은 원격 장치에 전달될 수 있는 형태로 변환하는 하나 이상의 광학, 고주파수 또는 다른 트랜스듀서 회로 또는 다른 시스템을 포함할 수 있다. 통신 시스템(115)은 호스트 또는 서버 컴퓨터 또는 네트워크(도시 생략됨) 또는 원격 메모리 시스템(101)으로부터 디지털 이미지 및 다른 디지털 데이터를 수신하기 위해 또한 사용될 수 있다. 통신 시스템(115)은 이렇게 수신된 대응하는 신호로부터의 정보 및 명령어를 프로세서 시스템(116)에 제공한다. 통상, 통신 시스템(115)은 인터넷, 셀룰러, 피어 투 피어 또는 다른 형태의 이동 통신망, 유선 또는 무선 근거리 통신망과 같은 로컬 통신망, 또는 임의의 다른 종래의 유선 또는 무선 데이터 전송 시스템과 같은 통상의 전기통신 또는 데이터 전송 네트워크 등의 통신 네트워크에 의해 원격 메모리 시스템(101) 또는 출력 시스템(106)과 통신하도록 구성될 것이다.
사용자 입력 시스템은 시스템(100)의 사용자가 명령어 또는 맞춤형 사용자 인터페이스를 통해 명령 또는 선택을 프로세서 시스템(116)에 제공하는 방법을 제공한다. 이에, 시스템 사용자는 디지털 이미지를 자동으로 재구성하는데 사용될 디지털 이미지 파일을 선택하고, 예를 들면 출력 이미지의 출력 형태를 선택할 수 있다. 사용자 입력 시스템(102-104, 118-119)은 비제한적인 예를 들자면 사용자가, 여기에서 설명하는 이미지 강화 루틴에 통합되는 디지털 이미지 파일을 선택, 수동 배열, 조직 및 편집하고, 사용자 또는 청중에 대한 정보를 제공하고, 음성 및 텍스트 데이터와 같은 주석 데이터를 제공하고, 콘텐트 데이터 파일에서 문자들을 식별 및 태그하고, 다른 방식으로 컴퓨팅 시스템에 의해 추출될 수 없는 메타데이터를 입력하고, 여기에서 설명하는 바와 같이 시스템(100)과의 다른 상호작용을 수행하게 하는 것을 비롯해서 각종의 다른 목적으로 또한 사용될 수 있다.
이와 관련하여, 사용자 입력 시스템(102-104, 118-119)은 사용자로부터 입력을 수신하고 그 입력을 프로세서 시스템(116)에 의해 해석되는 형태로 변환할 수 있는 임의 형태의 트랜스듀서 또는 다른 장치를 포함할 수 있다. 예를 들면, 사용자 입력 시스템은 106 및 117에서의 터치 스크린 입력, 터치 패드 입력, 4-웨이 스위치, 6-웨이 스위치, 8-웨이 스위치, 스타일러스 시스템, 트랙볼 시스템, 또는 103 및 118에서와 같은 마우스, 조이스틱 시스템, 108에서와 같은 음성 인식 시스템, 107에서와 같은 행동 인식 시스템, 키보드, 리모콘(102), 커서 방향 키, 온스크린 키보드, 또는 기타의 이러한 시스템을 포함할 수 있다. 도 1에 도시된 실시형태에 있어서, 원격 입력 시스템은 비제한적인 예를 들자면 원격 키보드(104), 원격 마우스(103) 및 리모콘(102)을 포함한 각종 형태를 취할 수 있다. 로컬 입력 시스템은 전술한 바와 같이 로컬 키보드(119), 로컬 마우스(118), 마이크(108) 및 기타 센서(107)를 포함한다.
이미지, 텍스트 또는 기타 그래픽 표시를 획득 또는 렌더링하기 위해 추가의 입출력 시스템(121)이 사용된다. 이와 관련하여, 입출력 시스템(121)은 비제한적인 예로서 프린터(123) 및 예컨대 스캐너(122)를 포함한, 이미지를 제공, 인쇄 또는 기록하기 위한 것으로 공지된 임의의 종래의 구조 또는 시스템을 포함할 수 있다. 프린터(123)는 비제한적인 예로서 통상의 4색 오프셋 분리 인쇄를 포함한 각종의 공지 기술을 이용하여 실체 표면(tangible surface)에 이미지를 기록할 수 있다. 실크 스크린과 같은 다른 접촉 인쇄가 수행될 수 있고, 또는 미국 뉴욕 로체스터에 소재하는 Eastman Kodak Company가 판매하는 NexPress 2100 프린터에서 사용되는 것과 같은 건식 전자사진, 열 인쇄 기술, 드롭온 디맨드 잉크젯 기술, 및 연속 잉크젯 기술, 또는 이들의 임의 조합이 사용될 수 있고, 이에 대해서는 122-124로 표시되어 있다. 이하에서는 설명의 용도로, 호환성 매체에 인쇄되는 컬러 이미지를 생성하는 유형의 것으로서 프린터(123)에 대해 기술할 것이다. 그러나, 이것은 필수적인 것이 아니고, 여기에서 설명하고 청구하는 방법 및 장치는 흑백, 그레이스케일 또는 세피아 톤 이미지와 같은 모노톤 이미지를 인쇄하는 프린터(123)로 실시될 수 있다고 생각된다.
소정의 실시형태에 있어서, 데이터 파일(109)의 소스, 사용자 입력 시스템(102-104) 및 출력 시스템(106, 117, 121)은 구성요소들을 공유할 수 있다. 프로세서 시스템(116)은 사용자 입력 시스템(102-104, 118-119), 센서(107-108), 스토리지/메모리(109) 및 통신 시스템(115)으로부터의 신호에 기초하여 시스템(100)을 동작시킨다. 프로세서 시스템(116)은 비제한적인 예를 들자면 프로그래머블 디지털 컴퓨터, 프로그래머블 마이크로프로세서, 프로그래머블 로직 프로세서, 다중처리 시스템, 칩세트, 일련의 전자 회로, 집적 회로 형태로 축소된 일련의 전자 회로, 또는 인쇄 회로 기판 상의 일련의 개별 구성요소를 포함할 수 있다.
이하에서 설명하는 것처럼, 처리 시스템(100)은 워크스테이션, 랩톱, 키오스크, PC, 및 핸드헬드 장치(예를 들면, 카메라, 스마트폰)로서 구성될 수 있다. 예시적인 워크스테이션으로서, 컴퓨터 시스템 중앙 처리 장치(116)는 상호접속 버스(105)를 통하여 통신한다. CPU(116)는 단일 마이크로프로세서를 포함할 수 있고, 또는 컴퓨터 시스템(100)을 다중 프로세서 시스템으로 구성하는 복수의 마이크로프로세서, 및 수 개의 레벨을 포함한 고속 캐시 메모리를 포함할 수 있다. 메모리 시스템(109)은 메인 메모리, 읽기 전용 메모리, 테이프 드라이브와 같은 대용량 기억 장치, 또는 이들의 임의 조합을 포함할 수 있다. 메인 메모리는 통상 시스템 동적 랜덤 액세스 메모리(DRAM)를 포함한다. 동작시에, 메인 메모리는 CPU(116)에 의해 실행되는 명령어들 중 적어도 일부를 저장한다. 워크스테이션의 경우에, 예를 들면 HDD 또는 테이프 드라이브의 형태를 가진 적어도 하나의 대용량 스토리지 시스템(110)은 운영체제 및 응용 소프트웨어를 저장한다. 컴퓨터 시스템(100) 내의 대용량 스토리지(110)는 컴퓨터 시스템(100)에 명령어 및 데이터를 제공하고 컴퓨터 시스템(100)으로부터 명령어 및 데이터를 수신하기 위해 플로피 디스크, 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 또는 집적회로 비휘발성 메모리 어댑터(114)(즉, PC-MCIA 어댑터)와 같은 각종의 휴대형 매체에 대한 하나 이상의 드라이브(111)를 또한 포함할 수 있다.
컴퓨터 시스템(100)은 예를 들면 프린터(123) 또는 다른 주변 장치(122-124)와 데이터 통신을 하기 위한 인터페이스로서 도시된 통신용의 하나 이상의 입출력 인터페이스(142)를 또한 포함한다. 인터페이스는 USB 포트, 모뎀, 이더넷 카드 또는 임의의 다른 적당한 데이터 통신 장치일 수 있다. 물리적 통신 링크는 광학, 유선 또는 무선일 수 있다. 스캔 목적으로 사용되면, 통신은 컴퓨터 시스템(100)이 스캐너(122)로부터의 스캔 또는 그로부터의 문서를 수신하고 프린터(123) 또는 다른 적당한 출력 또는 기억 장치에 출력할 수 있게 한다.
여기에서 사용하는 용어 컴퓨터 또는 "기계 판독 가능 매체"는 실행을 위해 프로세서에 명령어를 제공할 때 저장 또는 관여, 또는 저장 및 관여하는 임의의 지속적인(non-transitory) 매체를 말한다. 그러한 매체는 비제한적인 예를 들자면 비휘발성 매체 및 휘발성 매체를 포함한 여러 가지 형태를 취할 수 있다. 비휘발성 매체는 예를 들면 광학 또는 자기 디스크, 플래시 드라이브, 및 전술한 바와 같이 서버 플랫폼 중의 하나로서 동작하는 임의의 컴퓨터 내의 임의의 기억 장치를 포함한다. 휘발성 매체는 상기 컴퓨터 플랫폼의 메인 메모리와 같은 동적 메모리를 포함한다. 일시적인 물리적 전송 매체는 동축 케이블와, 컴퓨터 시스템 내의 버스를 포함한 와이어, 데이터 또는 명령어를 전달하는 반송파, 및 상기 반송파를 전달하는 케이블 또는 링크와 같은 구리 와이어 및 광섬유를 포함한다. 반송파 전송 매체는 전기 또는 전자기 신호 형태, 또는 고주파수(RF) 및 적외선(IR) 데이터 통신 중에 생성된 것과 같은 음향파 또는 광파의 형태를 취할 수 있다. 그러므로, 지속적인 컴퓨터 판독 가능한 매체의 일반적인 형태는, 예를 들면, 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD, 임의의 다른 광학 매체, 천공 카드, 종이 테이프, 홀 패턴을 가진 임의의 다른 물리적 매체, RAM, PROM, 및 EPROM, 플래시 EPROM, 임의의 다른 메모리 칩 또는 카트리지, 또는 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수 있는 임의의 다른 매체를 포함한다. 다수의 이러한 형태의 컴퓨터 판독 가능한 매체는 하나 이상의 명령어의 하나 이상의 시퀀스를 실행을 위해 프로세서에 전달하는데 관여될 수 있다.
도 2에 도시된 것처럼, 여기에서 설명하는 처리 시스템의 예시적인 구현은 다음과 같이 예시적인 워크스테이션(200) 및 접속된 구성요소로서 구체화된다. 처리 시스템(200) 및 로컬 사용자 입력 시스템(218-222)은 편집 스튜디오 또는 키오스크(201)(이하에서 "편집 영역"이라고도 부름)의 형태를 취할 수 있다. 그러나 이 설명이 잠재적 구현 예인 도 1에 도시된 가능성을 제한하는 것으로 의도되지 않는다. 로컬 스토리지 또는 메모리(209)는 데이터 시스템(109)과 관련하여 위에서 설명한 것과 같은 각종 형태를 취할 수 있다. 이 설명에서, 사용자(202)는 로컬 키보드(219) 및 마우스(218), 및 예를 들면 멀티미디어 콘텐트를 디스플레이할 수 있는 로컬 디스플레이(217)를 포함한 콘솔 앞에 앉아 있다. 역시 도 2에 도시된 것처럼, 편집 영역은 비제한적인 예를 들자면 오디오 센서(220), 내장 렌즈(221)를 구비한 카메라 또는 비디오 센서(222), 및 예컨대 사용자 제작 세션(user production session) 중에 사용자(202)를 모니터할 수 있는 멀티스펙트럼 센서와 같은 기타 센서를 포함한 센서(220-222)들을 또한 구비할 수 있다. 디스플레이(217)는 출력물 또는 출력물의 표시를 최종 형태 또는 중간 형태로서 시연하는 프리젠테이션 시스템으로서 사용될 수 있다. 디스플레이(217)는 사용자(202) 등의 청중에게 출력 콘텐트를 시연할 수 있고, 일부 센서(221, 222)는 시연된 콘텐트에 대한 청중 반응을 모니터링하도록 구성될 수 있다. 청중에게 시연되는 자료는 원격 뷰어에게도 시연될 수 있다고 생각된다.
1.0 수정 조건
재구성의 필요성은 일반적으로 디지털 이미지에 대한 입력 디지털 이미지와 원한 재구성 출력 종횡비 간에 종횡비 불일치가 있을 때 발생한다. 여기에서 사용하는 용어인 입력 디지털 이미지란, 여기에서 설명하는 방법 및 장치를 이용하여 재구성되는 디지털 이미지를 말한다. 입력 디지털 이미지는 재구성 대상의 입력 이미지로서 사용자가 선택한 입력 디지털 이미지를 포함한다. 이들은 수정되지 않은 디지털 이미지, 즉 최초 캡처 상태로부터 변경되지 않았거나 이미지 관리를 위해 임의개의 소프트웨어 제품을 이용하여 이전에 수정된 것일 수 있다. 출력 이미지란, 여기에서 설명하는 자동 재구성 방법 및 장치를 이용하여 수정 또는 조정된 디지털 이미지를 말한다. 이들은 상기 방법 및 장치의 사용자가 선택한 원하는 출력 종횡비를 또한 포함한다. 예를 들면, 다수의 디지털 카메라는 4:3 종횡비 이미지를 캡처한다. 만일 소비자가 이 이미지를 16:9 종횡비의 텔레비전, 디지털 프레임, 또는 기타 디스플레이 장치에서 디스플레이하기 원하거나 화상 프레임에서 디스플레이하기 위해 "6x4" 또는 "5x7" 프린트를 생성하기 원하면, 4:3 입력 종횡비와 출력 디스플레이 영역 간의 차를 교정할 필요가 있다. 이 변환은 자동 트림(auto-trim)이라고 불리고, 사진 분야에서 잘 알려져 있다. 이미지 콘텐트를 무시하는 가장 간단한 솔루션은 크롭 마스크 또는 크롭 박스라고도 알려져 있는 16x9 출력 종횡비 프레임이 원래의 입력 이미지에 포함되도록 가능한 한 작게 줌인(zoom in)하는 것이다. 이것은 통상 입력 이미지의 상측 및 하측 테두리 부분을 제거한다. 도 3은 입력 4:3 이미지(310)를, 각각 크로핑 전(320) 및 크로핑 후(330)의 가로 (6x4) 레이아웃 크로핑, 및 각각 크로핑 전(340) 및 크로핑 후(350)의 세로 (5x7) 레이아웃 크로핑과 함께 보인 것이다. 320 및 340에 표시된 사각형(326, 327, 346, 347)은 자동 얼굴 검출 알고리즘에 의해 결정되고 이미지 위에 중첩된 얼굴 경계(또는 얼굴 박스)이다. 이 시각형들은 카메라 처리 시스템에 의해 생성되어 카메라 디스플레이 화면에 또는 PC 처리 시스템에 디스플레이되고, PC 모니터에, 또는 아이패드(iPad) 또는 유사한 휴대용 장치와 같이 디스플레이를 구비한 다른 처리 시스템에 디스플레이될 수 있다. 이미지(320, 330)는 이미지(310)로부터 6:4 크롭 영역을 추출하기 위한 최소 줌 방법을 나타낸다. 출력 종횡비가 입력 종횡비보다 클 경우(예를 들면, 6:4 > 4:3), 최소 줌 방법은 입력 이미지의 상측 및 하측의 부분을 크로핑하여 없애는 것을 필요로 한다. 통상 자동 동작용으로 프로그램된 일반적인 경험 룰(rule of thumb)은 사진 속의 임의의 인물의 머리가 잘릴 가능성을 최소화하기 위해 상측의 25% 및 하측의 75%를 크로핑하는 것이다(여기에서 크로핑, 즉 제거되는 전체 이미지 영역은 100%를 나타낸다). 이미지(320)에서 자동으로 생성된 수평선(321, 322), 즉 크롭 마스크(crop mask)는 6:4 크로핑 영역을 나타내고, 330은 크로핑된 최종 이미지를 나타낸다. 출력 종횡비가 입력 종횡비보다 작을 경우(예를 들면, 5:7 < 4:3), 프로그램된 최소 줌 알고리즘은 입력 이미지의 좌측 및 우측 테두리의 일부를 크로핑한다. 이미지(340) 내의 수직선(341, 342)은 자동으로 생성된 5:7 크로핑 영역을 나타내고, 350은 크로핑된 최종 이미지를 나타낸다. 영역들을 좌측 및 우측에서 크로핑할 때는 중앙 크롭 알고리즘, 즉 이미지의 좌측 및 우측 가장자리를 각각 50% 크로핑하도록 프로그램하는 것이 일반적이다(여기에서 크로핑, 즉 제거되는 전체 이미지 영역은 100%를 나타낸다). 자동 트림을 행하는 이러한 방법은 임의의 이미지 콘텐트에 대하여 분별이 없지만, 고속이며 많은 장면에 유효하다.
더 바람직한 결과는 여기에서 설명하는 자동 트림 방법의 전 및 후에 달성될 수 있다. 예를 들어서, 만일 주요 피사체에 대하여 어떤 지식을 갖고 있으면, 크롭 박스를 상기 주요 피사체에 센터링하도록 프로그램할 수 있다. 주요 피사체를 포함하고 배경 클러터(clutter)를 제거하도록 선택적으로 줌인 또는 줌아웃하는 것도 가능하다. 원하는 입력 및 출력 종횡비와 함께, 이미지(320, 340)에 표시된 얼굴 박스 위치(326, 327, 346, 347)를 이용해서, 대안적인 트리밍 방법을 또한 수행할 수 있는데, 그 중 하나는 역시 선택적인 줌을 포함하는 것이다. 예를 들면, 도 4에서, 이미지(410)는 도 3의 이미지(310)와 동일한 이미지이고, 이미지(430)는 이미지(330)와 동일하며, 이미지(450)는 이미지(350)와 동일하다. 도 4를 참조하면, 틀림없이 이미지(430, 450)보다 나은 6x4 및 5x7 구성이 각각 이미지(435, 455)이다. 이미지(435, 455)는 여기에서 설명하는 본 발명의 기술을 이용하여 자동으로 작성되었다.
대부분의 기념 사진 메모리는 인물 화상을 포함하고, 그래서 인물이 가끔 이미지의 주요 피사체이므로며, 재구성 요청을 충족시킴에 있어서 중요하다. 컴퓨터 비젼 및 패턴 인식 2001, 2001 IEEE 컴퓨터 학회 회의의 회보 2001(Computer Vision and Pattern Recognition , 2001, Proceedings of the 2001 IEEE Computer Society Conference, 2001), 제1권, I-511~I-518 페이지의 P. Viola 및 M. Jones의 논문 "Rapid object detection using a boosted cascade of simple features", 또는 컴퓨터 비젼 및 패턴 인식 2004; 2004 IEEE 컴퓨터 학회 회의의 회보 2004(Computer Vision and Pattern Recognition, 2004; Proceedings of the 2004 IEEE Computer Society Conference , 2004), 제2권, II-29~II-36 페이지의 H. Schneiderman의 논문 "Feature-centric evaluation for efficient cascaded object detection에 기재된 컴퓨터 방법을 이용하면, 각 얼굴의 크기 및 위치를 각 이미지 내에서 찾을 수 있다. 상기 2개의 문헌은 여기에서의 인용에 의해 그 전체가 본원에 통합된다. 비올라(Viola)의 논문에서는 포지티브 얼굴 및 네거티브 비-얼굴 이미지의 트레이닝 세트를 활용한다. 그 다음에, 단순한 머리카락 모양의 잔물결 위크 분류기(weak classifier) 특징이 포지티브 및 네거티브 트레이닝 이미지 모두에서 계산된다. 단일의 머리카락 모양 특징이 영역을 얼굴로서 또는 비-얼굴로서 분류할 수 없지만, 다수의 특징을 그룹화하는 것은 영역이 얼굴인지 아닌지를 결정하는데 사용될 수 있는 강한 분류기를 형성한다. 이 분류는 특정의 창 크기를 이용하여 이루어질 수 있다. 이 창은 얼굴을 검출하기 위해 이미지의 모든 화소들을 가로질러 아래로 슬라이딩된다. 창은 이미지에서 더 큰 얼굴을 검출하기 위해 확대된다. 이 처리는 모든 크기의 모든 얼굴이 이미지 내에서 찾아질 때까지 반복한다. 이 처리는 상당히 연산 집약적이기 때문에, 통합 이미지 및 위크 분류기의 캐스케이드와 같은 최적화에 의해 알고리즘이 고속으로 작동하게 된다. 이 처리에 의해 이미지의 모든 얼굴을 찾아내면, 이 처리는 각 얼굴의 위치 및 크기로 복귀할 것이다. 이 알고리즘은 전형적인 카메라, 스마트폰, 아이패드, PC 또는 다른 컴퓨팅 시스템에서 모든 얼굴을 실시간으로 찾아낼 수 있도록 최적화되었다.
얼굴이 발견되면, 신경망, 서포트 벡터 머신, 또는 유사한 분류 수단이 눈, 코, 입과 같은 특유의 특징의 위치를 알아내기 위해 훈련될 수 있고, 그 다음에, 눈의 코너, 눈썹, 턱 및 볼의 가장자리가 이미지 이해 워크숍의 회보 1992(Preceedings from the Image Understanding Workshop , 1992)에서 DeMenthon, daniel F, Davis, Larry S.에 의한 "Model Based Pose in 25 Lines of Code"에 기재된 것과 같은 인체측정 제약에 기초한 기하학적 룰을 이용하여 찾아질 수 있다. 컴퓨터 비전 및 이미지 이해(Computer Vision and Image Understanding) 1995, 제61권 38-59 페이지에서 Cootes, T. F. Cootes, C. J. Taylor, D. H. Cooper, 및 J. Graham에 의한 "Active shape models - their training and application"에 액티브 형상 모델은 눈, 코, 입술, 얼굴 윤곽 및 눈썹과 같은 모든 얼굴 특징을 국한하기 위해 사용될 수 있다. 상기 2개의 문헌은 여기에서의 인용에 의해 그 전체가 본원에 통합된다. 이렇게 발견된 특징들을 이용해서, 눈/입이 열려있는지, 또는 표정이 행복한지, 슬픈지, 놀란 표정인지, 심각한지, 무관심한지, 또는 사람이 유쾌한 미소를 띠고 있는지 결정할 수 있다. 포즈를 결정할 때는 인체측정 제약을 고수하는 기하학적 모델을 개발하는, "ICME- 개인 및 사회 응용을 위한 미디어 정보 분석에 대한 워크숍의 회보, 2009"(Proceedings of ICME - Workshop on Media Information Analysis for Personal and Social Applications , 2009)에서 R. W. Ptucha, A. Savakis에 의한 "Facial Pose Estimation Using a Symmetrical Feature Model)에 기재된 바와 같은 유사한 추출된 특징을 이용한다. 이 문헌은 여기에서의 인용에 의해 그 전체가 본원에 통합된다. 각 얼굴과 관련하여 저장된 포즈 및 표정 정보에 의해, 본 발명의 양호한 실시형태는 일부 얼굴에 대하여 더 많은 가중치를 주도록 프로그램될 수 있다. 예를 들면 미소를 띠고 앞을 바라보는 사람이 덜 바람직한 것으로 결정된 표정으로 좌측을 보는 사람보다 더 중요하다. 그 다음에 더 많은 가중치의 얼굴을 가진 이미지에 대해 등급이 정해지고 임의의 제안된 용도로 우선적으로 선택될 수 있다. 등급이 정해진 이미지가 식별되고, 분류된 리스트는 컬렉션에 추가된 새로운 이미지로 인해, 또는 새로운 랭킹 알고리즘 때문에 가끔 컴파일, 저장 및 갱신될 수 있다. 분류된 리스트는 추후 사용을 위해 액세스될 수 있다. 바람직한 가중의 다른 예로서, 만일 얼굴이 이미지 내에서 좌측을 보고 있으면, 그 이미지의 크로핑된 영역은 우측을 향해 치우치도록 프로그램될 수 있다. 예를 들면, 전술한 바와 같은 중앙 크롭 알고리즘은 이미지의 일측(이 예에서는 우측)으로 크롭 구역의 50% 이상을 할당하도록 조정될 수 있다.
많은 경우에, 이미지에 나타나는 사람은 없지만, 사람이 아니거나, 인식 가능한 얼굴을 포함하지 않은 주요 피사체가 있다. 미국 특허 제6,282,317호(이 특허의 내용은 여기에서의 인용에 의해 그 전체가 본원에 통합된다)에 개시된 것과 같은 주요 피사체 검출 알고리즘은 자동 줌형 재구성, 강제 재구성, 또는 비강제 재구성을 안내하기 위한 얼굴 검출 알고리즘 대신에, 또는 이 얼굴 검출 알고리즘과 함께 사용될 수 있다. 이러한 알고리즘의 예시적인 양호한 실시형태는 디지털 이미지를 색 및 텍스처(texture)와 같은 동종 속성을 가진 몇 개의 영역으로 세분하는 것을 수반한다. 영역 세그먼트는 유사성 측정치에 기초하여 더 큰 영역으로 그룹화될 수 있다. 영역들은 2개의 독립적인 상보형 특징, 즉 구조적 특징과 의미론적 특징을 이용하여 그들의 특징에 대하여 알고리즘적으로 평가된다. 구조적 특징은 이미지 내에서 각 이미지의 위치, 크기, 형상 및 대칭과 같은 측정 가능한 특성에 의해 결정된다. 의미론적 특징은 색, 명도 및 텍스처 측정치를 이용하여 전경(예를 들면, 조상(statue), 건물, 사람) 또는 배경(예를 들면, 하늘, 초원)의 일부로 될 수 있는 이미지 내의 기지의 객체/영역에 대한 이전의 지식에 기초를 둔다. 예를 들면, 살결(flesh), 얼굴, 하늘, 초원 및 다른 녹색 식물과 같은 식별되는 핵심 특징은 문헌들에 잘 특징화되어 있다. 의미론적 및 구조적 유형 양자의 데이터는 주요 피사체의 최종 위치를 산출하기 위해, Russell 및 Norvig에 의한 "인공 지능---현대 접근법"(Artificial Intelligence---A Mordern Approach), 제2판, 프렌티스 홀, 2003에 설명된 것처럼 베이즈 넷(Bayes net)을 통해 통합될 수 있다. 이 문서는 여기에서의 인용에 의해 그 전체가 본원에 통합된다. 베이즈 넷은 영역에 대한 이전의 의미론 확률 지식을 현재의 구조적 특징과 함께, 주요 피사체 또는 배경으로서 분류되는 객체/영역의 특정 확률을 계산하기 위한 통계 확률 트리에 결합한다. 이 주요 피사체 검출 알고리즘은 주요 피사체의 위치 및 피사체의 크기를 또한 제공한다.
복잡한 처리에도 불구하고, 전술한 자동화 주요 피사체 검출기는 가끔 주요 피사체 구역을 잘못 계산한다. 얼굴 영역이 주요 피사체 검출기에 공급되고 고 우선순위의 주요 피사체 빌리프 맵(belief map)으로서 식별되는 경우에도, 주요 피사체 검출기에 의해 찾아낸 주요 피사체 영역은 가끔 얼굴 구역의 중요성을 경시한다. 인간 관측자가 얼굴에 매혹되어, 최종 이미지 내의 얼굴의 연출이 종종 장면 내의 임의의 다른 주요 피사체보다 훨씬 더 중요하게 되고, 그래서 이러한 종래의 방법 및 장치는 본 발명의 양호한 실시형태에 의해 제공되는 장점들을 갖지 못한다. 그래서, 본 발명의 양호한 실시형태는 이미지 내에서 얼굴을 찾으면 전술한 연산 집약적인 주요 피사체 검출 방법에 덜 역점을 둔다. 이미지 크로핑을 위해 얼굴 정보만을 사용하는 것은 처리하기에 더 강하고 더 간단한 것으로 판정되었다. 본 발명의 양호한 실시형태는 얼굴을 발견하지 못할 때에만, 수직으로 크로핑할 경우에는 상측의 25%를 잘라내고 하측의 75%를 잘라내며, 수평으로 크로핑할 경우에는 각 측을 50% 잘라내는 주요 피사체 검출 방법 또는 자동 트림 방법으로 다시 복귀한다. 또한, 이용 가능한 계산 능력이 일부 남아있다면, 포즈, 깜박임(blink), 미소 등을 결정하는 얼굴 이해 방법은 주요 피사체 검출보다 덜 계산 집약적일 뿐만 아니라 최종 크로핑 영역을 결정함에 있어서 훨씬 더 효과적이다.
2.1 고 우선순위 영역 및 중간 우선순위 영역의 형성
도 5a를 참조하면, 본 발명의 양호한 실시형태는 얼굴 검출을 수행함으로써 시작한다. 본 발명은 상기 기준에 의해 통합된 특정의 얼굴 검출 알고리즘을 이용하는 것으로 한정되지 않는다. 각종의 얼굴 검출 알고리즘은 현재, 예를 들면 디지털 카메라에 있어서, 그리고 사용자가 카메라 디스플레이에서 관측할 수 있는 얼굴을 포함한 하이라이트(highlight) 이미지 영역에서 발견된다. 이미지(510)는 본 발명의 실시형태의 동작의 설명을 명확히 할 목적으로 원래 이미지의 샘플 양식화 버전을 보인 것이다. 이미지(520)는 얼굴 위치 및 크기를 실선의 얼굴 박스(521-525)로 표시한 동일한 샘플 이미지를 보인 것이다. 만일 얼굴이 발견되면, 본 발명의 양호한 실시형태는 발견된 모든 얼굴들을 최대의 것으로부터 최소의 것까지 분류한다. 최대 얼굴 폭의 선택 가능한 α% 이하의 폭을 가진 얼굴은 알고리즘에 의해 무시되도록 프로그램될 수 있다. 양호한 실시형태에 있어서, α=33이고, 따라서 최대 얼굴 영역(근사치로서 사각형 얼굴 박스를 이용함)의 약 1/9 이하인 얼굴을 무시하지만, α의 값은 프로그램적으로 다르게 선택될 수 있다. 나머지 얼굴들은, 만족한 구성을 위해 크로핑되지 않는 것이 바람직한 이미지 영역을 구별하기 위해, 및 얼굴의 중요한 특징이 최종의 출력 이미지에서 우연히 크로핑되지 않게 하기 위해 상측, 하측, 좌측 및 우측에서 "패딩(padding)"된다. 패딩 영역의 크기는 얼굴 크기 및 입력 종횡비와 출력 종횡비의 함수이다. 이하의 설명에서, 얼굴 박스의 상측, 하측, 좌측 및 우측의 패딩은 하나의 얼굴 폭과 동일하다고 가정한다. 본 발명의 양호한 실시형태에서 사용되는 실제 패딩 양을 결정하기 위해 사용되는 정확한 방법에 대해서는, 섹션 6에서 설명할 것이다.
입력 이미지(520)의 하부 우측에 있는 2개의 작은 얼굴 박스(524, 525)는 그 이미지 내의 최대 얼굴 박스(522) 면적의 1/9보다 작기 때문에 무시되고 이 예의 알고리즘에서 더 이상 사용되지 않는다. 조합된 얼굴 박스 영역이 이미지(530)에서 점선의 직사각형(535)으로 표시되어 있다. 이것은 나머지 개별 얼굴 박스의 최좌측, 최우측, 최상측 및 최하측 테두리와 관련하여 형성된다. 이것은 알고리즘에 의해 디지털식으로 규정되고, 그 위치/정의는 입력 이미지 및 출력 이미지와 연관되어 저장될 수 있다. 이하의 설명에서는, 이들 영역을 정사각형 또는 직사각형으로 표시하여, 그 규정 및 저장을 수평 및 수직 좌표를 이용해 간략화한다. 이 조합된 얼굴 박스는 고 우선순위 얼굴 박스 구역, 또는 간단히 고 우선순위 영역이라고 부르고, 일부 예에서는 단지 하나의 얼굴 박스를 포함하는 이미지에 대한 개별 얼굴 박스와 동일할 수 있다.
도 5c는 통상의 얼굴 검출 소프트웨어에서 사용되는 일반적인 얼굴 박스 크기 결정법을 보인 것이다. 알고리즘은 처음에, 디지털 이미지에서 발견되는 얼굴의 양 눈의 중심 영역에 각각 형성되는 2개의 지점 간 거리(D1)를 결정한다. 나머지 치수는 다음과 같이 계산되는데, 상기 2개의 지점에 대하여 대칭적으로 센터링되는 얼굴 박스의 폭을 D2=2*D1으로 하고 눈 아래쪽 거리를 H2=2*H1으로 하며, 눈 위쪽 거리 H1=(2/3)*D1으로 하면, H2=(4/3)*D1으로 된다.
도 5b를 참조하면, 3개의 얼굴 주변의 패딩은 각각의 얼굴 박스를 둘러싸는 점선으로 표시된 이미지(540) 내의 패딩 얼굴 박스(541-543)를 형성한다. 조합된 패딩 영역은 이미지(550)에 표시된 단일의 얼굴 패딩 영역(555)을 형성한다. 이 조합된 얼굴 패딩 영역(555)을, 중간 우선순위의 조합된 패딩 얼굴 영역, 또는 간단히 중간 우선순위 영역이라고 부른다. 이것은 패딩된 얼굴 박스의 최좌측, 최우측, 최상측 및 최하측 테두리와 관련하여 형성된다. 입력 종횡비, 원하는 출력 종횡비 및 심미감 룰을 이용해서, 중간 우선순위 영역은 디지털 이미지(560) 내에서 제거 영역(567)으로서 나타내는 저 우선순위 구성 박스 영역(후술함), 또는 저 우선순위 영역을 형성하도록 확장된다.
도 5a를 참조하면, 520의 하부 우측에 있는 2개의 얼굴(524-525)이 약간 더 컸다면, 그들의 얼굴 폭은 최대 얼굴 폭의 α% 이상으로 될 것이고, 알고리즘은 이들이 원래 구성의 일부가 되는 것으로 의도되었다고 결정할 것이다. 도 6a는 얼굴(614, 615)의 면적이 이제 각각 이미지(610)에서 발견되는 최대 얼굴(612) 면적의 1/9 이상일 때의 시나리오를 보인 것이다. 모두 5개의 개별적인 얼굴 박스의 최좌측, 최우측, 최상측 및 최하측 테두리를 취하여 고 우선순위 영역(618)의 테두리를 형성한다. 패딩 구역으로서 1x 얼굴 폭을 이용한 패딩 얼굴(631-635)은 630에 도시되어 있다. 중간 우선순위 영역을 형성할 때, 복수의 중간 우선순위 영역의 형성을 허용한다. 패딩 얼굴 박스의 최좌측, 최우측, 최상측 및 최하측 테두리를 이용할 경우, 패딩 얼굴 박스의 각 그룹화는 그 자신의 중간 우선순위 영역을 형성하고, 그룹화는 패딩된 얼굴 박스를 중첩함으로써 규정된다. 중첩되는 모든 패딩 얼굴 박스는 단일 그룹에 속하고, 따라서 그들 자신의 중간 우선순위 영역을 규정한다. 도 6a에서, 2개의 중간 우선순위 영역(645, 647)을 형성한다. 만일, 얼굴 박스들을 패딩한 후에, 이미지(640)에서 645 및 647로 표시한 것처럼 2개의 중첩되지 않은 분리된 중간 우선순위 영역을 가지면, 알고리즘은 이 데이터를 취하여 고 우선순위 영역(618)을 재계산한다. 구체적으로, 알고리즘은 각각의 중간 우선순위 영역과 함께 하도록 대응하는 고 우선순위 영역을 재계산하고, 여기에서 각각의 중간 우선순위 영역에 기여하는 얼굴들의 그룹화는 이미지(620)에서 625 및 627로 표시된 그들 자신의 고 우선순위 영역에도 기여한다.
최대 얼굴 박스의 α% 이하인 얼굴 박스를 무시하는 전술한 기준과 유사하게, 최대의 패딩 얼굴 박스의 β% 이하의 폭을 가진 모든 패딩 얼굴 박스를 또한 무시함으로써 이 처리 지점에서의 제2 기준을 포함한다. 양호한 실시형태에 있어서, β=50이고, 그 결과 최대의 패딩 얼굴 박스 면적의 대략 1/4 이하의 면적을 가진 패딩 얼굴 박스는 무시된다(패딩 얼굴 박스에 대한 정사각형의 근사치를 이용해서). 만일 중간 우선순위 영역이 이 처리에서 무시되면, 그들의 대응하는 고 우선순위 영역도 무시된다. 버려지지 않은 중간 우선순위 영역은 이하에서 설명하는 방법을 이용하여 저 우선순위 영역을 형성하는데 이용될 것이다. 그러나, 개별 패딩 얼굴 박스(631-635) 및 중간 우선순위 영역(645, 647)은 가능한 추후 사용을 위해 알고리즘에 의해 별도로 기록 및 유지된다. 예를 들어서, 만일 요청되는 출력이 5:7의 세로 레이아웃이면, 양쪽 중간 우선순위 영역(645, 647)을 완전한 형태로 유지하는 것은 불가능할 것이다. 중간 우선순위 영역 사이즈에 기초하여 양자의 측면 또는 중심 무게를 잘라내는 대신에, 바람직한 방법은 가능한 한 많은 중간 우선순위 영역을 완전한 형태로 포함하도록 시도할 것이다. 구체적으로, 최소의 중간 우선순위 영역은, 최종의 강제된 재구성이 나머지의 모든 중간 우선순위 영역을 완전한 형태로 포함할 수 있을 때까지 한번에 하나씩 무시된다. 이것은 일부 사람을 화상으로부터 잘라낼 것이만, 더 중요하거나 더 큰 얼굴 영역을 보존할 것이다. 2개 이상의 동일한 크기의 중간 우선순위 영역 중의 하나가 무시되어야 하는 경우에는 더 중앙에 위치한 얼굴 박스에 우선순위가 주어진다. 예시적인 이미지(640)에 있어서, 최종의 강제적인 재구성 출력 종횡비(641)(음영으로 표시되지 않음)는 640의 입력 종횡비와 매우 유사하였다. 본 발명의 알고리즘에 따르면, 패딩 얼굴 박스(635)가 입력 이미지 영역의 외측에 있기 때문에, 도 15와 관련하여 섹션 6에서 설명하는 바와 같이, 634 및 635에 의해 형성되는 조합된 패딩 얼굴 박스 영역(중간 우선순위 영역)의 반대측으로부터 동일한 양이 크로핑된다. 그러므로, 양자의 중간 우선순위 영역이 이미지(640)의 저 우선순위 영역(641) 내에 맞추어질 수 있다.
전술한 바와 같이, 너무 작은 얼굴(도 5a에서 524 및 525로 표시된 얼굴)은 무시된다. 대안적으로, 원하지 않는 특성을 나타내는 얼굴들도 또한 무시될 수 있다(최종의 강제적인 종횡비 크롭 박스의 형성 중에, 원하지 않는 특성을 나타내는 얼굴들이 저 우선순위 영역의 최초 형성시에 유지되고, 더 낮게 가중되고, 그 다음에 가중치에 기초하여 선택적으로 무시되는 법에 대해서는 후술한다). 도 6b의 이미지(660)는 도 6a의 이미지(610)와 동일하지만, 최대의 얼굴(도 6b의 662 및 도 6a의 612)이 깜박이는 눈 및 네거티브 표정을 나타내고 있는 점이 다르다. 각 얼굴은 가중치 또는 적합성 값(fitness value)을 갖는다. 최고 스코어 얼굴의 백분율보다 낮은 가중치를 가진 얼굴, 예를 들면, 최고 스코어 얼굴의 25% 미만인 얼굴은 무시된다. 눈 깜박임 및 표정과 같은 요소들은 도 6b의 662의 적합성 스코어를 낮출 것이다. 마찬가지로, 시선, 머리 높이, 머리 흔들림(head yaw), 머리 회전, 노출, 콘트라스트, 노이즈 및 오클루션(occlusion)과 같은 요소들도 얼굴의 적합성 스코어를 낮출 수 있다. 도 6b의 패딩 얼굴 박스(682)는 대응하는 낮은 적합성 스코어를 갖는다. 이미지(670)에 있어서, 얼굴(662)의 적합성 스코어는 임의의 추가 처리에서 무시될 정도로 낮은 것으로 상정된다. 이 경우에, 패딩 얼굴(661, 663)은 중첩되지 않는 패딩 얼굴 박스(695, 696)를 형성한다. 이 때 이미지(690)는 695, 696 및 697로 표시된 3개의 중간 우선순위 영역을 갖는다(중간 우선순위 영역(684, 685)은 조합된 중간 우선순위 영역(697)을 형성하도록 함께 그룹화되었다).
2.2 저 우선순위 영역의 형성
이제, 중간 우선순위 영역으로부터 저 우선순위 영역으로 확장하는 것에 대하여 설명한다. 이 알고리즘은 사진사들이 "3등분의 룰(rule of thirds)"이라고 부르는 것의 연장을 따른다. 중간 우선순위 영역의 크기 및 위치를 이용해서, 알고리즘은 3등분의 룰 구성이 더 만족한 디스플레이를 만들도록 적용될 수 있는지 결정한다. 3등분의 룰은 조사 대상 관측자들의 평균화된 의견으로 균형이 잘 잡힌 또는 자연스런 모습의 프린트를 산출하는 것으로 입증된 구성 룰이다. 만일 이미지가 2개의 수평선과 2개의 수직선을 가진 균등하게 이격된 3x3 격자로 분할되면, 심미적 설계 개념은 관심 대상 피사체(이 예에서는 중간 얼굴 박스)를 4개의 분할선 중의 하나, 바람직하게는 4개의 교차점 중의 하나에 둘 것이다. 이 예에서, 알고리즘은 중간 우선순위 영역을 4개의 분할선 중의 하나에 중심을 맞추려고 한다. 중간 우선순위 영역의 크기 및 3등분의 룰 선들의 간격은 하기의 방법에 따라 저 우선순위 영역을 결정한다.
종종, 중간 우선순위 영역의 일부를 이미지 영역의 외측에 있지 않게 하면서 상기 선들 중의 하나에 중간 우선순위 영역의 중심을 맞추는 것이 불가능할 수 있다. 만일 중간 우선순위 영역을 상기 분할선들 중의 하나에 중심을 맞출 수 없고 중간 우선순위 영역 전체가 이미지의 상측 절반에 있으면, 알고리즘은 중간 우선순위 영역을 하향으로 확장하려고 시도한다. 마찬가지로, 중간 우선순위 영역 전체가 이미지의 하측 절반, 좌측 절반 또는 우측 절반에 있으면, 알고리즘은 결과적인 구성을 더욱 만족한 것으로 만들 때, 중간 우선순위 영역을 각각 상향으로, 우측으로 또는 좌측으로 확장하려고 시도한다. 확장 양은 바람직한 출력이 가로인지 또는 세로인지에 따라서 크게 영향을 받는 조정 가능한 파라미터이다. 출력 종횡비가 특정된 경우에, 상하 확장은 세로 출력에서 강조되고 좌우 확장은 가로 출력에서 강조된다. 예를 들어서, 만일 출력 이미지 디스플레이 이미지가 사실상 세로이면, 알고리즘은 크롭 박스를 수직 방향으로 확장하는 것을 선호할 것이다. 만일 출력 이미지 디스플레이 이미지가 사실상 가로이면, 알고리즘은 크롭 박스를 수평 방향으로 확장하는 것을 선호할 것이다.
알고리즘의 예시적인 결과로서, 만일 중간 우선순위 영역이 상부 우측 사각형 내에 있으면, 저 우선순위 영역이 중간 우선순위 영역과 동일하게 초기화된다. 그 다음에, 가로 출력 이미지에 대하여, 좌측을 최대 얼굴 폭의 2배만큼 연장하고 하측을 최대 얼굴 폭의 2배만큼 연장하여 저 우선순위 영역을 형성한다. 세로 이미지의 경우에는 좌측 및 우측이 연장되지 않고, 하측이 최대 얼굴 폭의 3배만큼 연장된다. 중간 우선순위 영역이 상부 좌측 사각형 내에 있는 경우에도 유사한 룰이 이용된다. 만일 중간 우선순위 영역이 하부 좌측 또는 우측 사각형 내에 있고 가로 이미지가 요구되면, 우측 및 좌측이 각각 최대 얼굴 폭의 2배만큼 연장되고 상측 경계가 최대 얼굴 폭의 1x만큼 연장되어 저 우선순위 영역을 형성한다. 만일 중간 우선순위 영역이 하부 좌측 또는 우측 사각형 내에 있고 세로 이미지가 요구되면, 우측 및 좌측은 연장되지 않지만 상부 경계는 최대 얼굴 폭의 1x만큼 연장되어 저 우선순위 영역을 형성한다. 만일 중간 우선순위 영역이 입력 이미지의 좌측 또는 우측 절반으로 강요되면, 최대 얼굴 폭의 2x만큼 우측 또는 좌측으로 확장함으로써 저 우선순위 영역을 형성한다. 만일 중간 우선순위 영역이 입력 이미지의 하부 중앙에 있으면, 저 우선순위 영역은 가로 이미지인 경우 최대 얼굴 폭의 2배만큼 및 세로 이미지인 경우 최대 얼굴 폭의 3배만큼 하향으로 확장함으로써 형성된다. 중간 우선순위 영역이 복수 개인 경우에는 가중 조합을 이용하여 중간 우선순위 영역의 전체 위치를 평가(gauge)한다. 이 가중 조합은 크기 및 위치에 기초를 둘 수 있고, 간단히 알 수 있는 것처럼, 각 중간 우선순위 영역 내의 얼굴들의 적합성에 대한 정보를 포함한다.
상기 구성 룰을 이용하는 것 외에, 본 발명의 알고리즘은 입력 이미지가 전문가에 의해 구성되었는지 아마추어에 의해 구성되었는지를 표시하는 파라미터를 포함한다. 만일 디지털 이미지에 대한 이전의 수정이 전문가에 의해 구성되었다고 알고리즘이 결정하면, 알고리즘에 의해 수행되는 디지털 이미지의 저 우선순위 영역에 대한 결과적인 변경은 원래 입력 이미지 경계쪽으로 치우쳐진다. 만일 디지털 이미지에 대한 이전의 수정이 아마추어에 의해 구성되었다고 알고리즘이 결정하면, 알고리즘에 의해 수행되는 디지털 이미지의 저 우선순위 영역에 대한 결과적인 변경은 강요되지 않는다(표준 디폴트 모드). 만일 (전문가)사진사가 피사체를 중심 밖에 둠으로써 디지털 이미지를 수정하였으면, 출력 이미지는 유사한 치우침을 유지할 것이다. 이것을 구현하기 위해, 알고리즘은 전자동으로 생성된 저 우선순위 영역과 원래의 사용자 수정 이미지 사이에서 계속적으로 조정할 수 있다. 이 방법에서 최종의 4개의 경계는 상기 2개 사이의 가중된 합이다. 디폴트 모드는 자동으로 생성된 저 우선순위 영역 경계를 1로 가중하고 원래의 경계를 0으로 가중한다. 전문가 모드에 있어서, 알고리즘은 알고리즘이 결정한 저 우선순위 영역 및 이전에 수정된 이미지 경계 양자에 대하여 0.5의 가중치를 이용한다.
3.0 강제적인 종횡비 크롭 박스의 형성
결과적인 저 우선순위 영역(확장된 중간 우선순위 영역)은 이 알고리즘 하에서 입력 이미지의 최적의 가시 영역을 규정한다. 이 박스 외측에 있는 입력 이미지의 영역들은 입력 이미지의 관련없는 부분으로 간주되고 알고리즘은 이 영역 내의 콘텐트를 무시한다. 출력 종횡비가 특정되지 않은 경우, 또는 요구된 종횡비가 저 우선순위 영역 종횡비와 일치하지 않는 경우, 저 우선순위 영역 내의 영역이 최종 출력 이미지로 된다. 출력 종횡비가 특정되고 저 우선순위 영역 종횡비와 일치하지 않는 경우, 본 발명의 양호한 실시형태는 다음과 같이 그 차를 교정한다.
상기 차를 교정하기 위해, 강제 치수(constraining dimension)가 계산된다. 요구된 출력 종횡비가 저 우선순위 영역보다 큰 경우, 알고리즘은 저 우선순위 영역의 좌측 및 우측을 입력 이미지의 이전에 결정된 "무관련" 부분으로 패딩하려고 시도한다. 마찬가지로, 출력 종횡비가 저 우선순위 영역보다 작은 경우, 알고리즘은 상측 및 하측을 입력 이미지의 "무관련" 부분으로 패딩하려고 시도한다. 저 우선순위 영역에 대한 확장 선택, 종횡비 불일치의 교정 및 패딩의 선택은 저 우선순위 영역, 중간 우선순위 영역 및 고 우선순위 영역에 대한 연속적인 일련의 평가를 통해 달성된다.
요구된 종횡비를 달성하려고 시도할 때, 요구된 종횡비를 달성하기 위해 저 우선순위 영역의 상측 또는 측면에 대한 패딩으로서 이용하기에 무관련 영역이 충분하지 않을 수 있다. 이 경우에는 이미지의 가장자리가 비-콘텐트 경계로 패딩되거나, 저 우선순위 영역이 크롭되거나, 외부 이미지 정보를 이용하여 원래 이미지를 필요한 방향으로 연장할 수 있다. 비-콘텐트 경계에 의한 패딩은 항상 시각적으로 매력적이지 않다. 원래의 이미지 콘텐트를 사용자 컬렉션의 다른 이미지로부터 또는 웹 상의 이미지로부터 연장하는 것은 복잡한 장면 정합(matching) 및 스티칭(stitching)을 필요로 한다. 저 우선순위 영역으로 선택적으로 절단하는 것은 종종 양호한 방법이지만, 저 우선순위 영역의 시각적으로 및 심미적으로 매력적인 크로핑 버전이 유지되는 방식으로 수행되어야 한다. 이는 이것을 수행함으로써 어떠한 중간 우선순위 영역도 삭제하지 않는다면 저 우선순위 영역에 대하여 중심 크로핑을 행함으로써 달성된다. 만일 임의의 중간 우선순위 영역이 이 처리에 의해 크로핑되면, 이것은 출력 이미지를 중간 우선순위 영역에 중심 맞춤함으로써 회피될 수 있다. 만일 이러한 이동(shift)이 고 우선순위 영역을 크로핑하지 않으면, 그 결과는 만족스러운 것으로 간주된다. 만일 임의의 고 우선순위 영역이 이 처리에 의해 크로핑되면, 출력 이미지는 고 우선순위 영역에 센터링된다. 그럼에도 불구하고 이 고 우선순위 영역이 크로핑되면, 어떠한 고 우선순위 영역도 최종 이미지로부터 크로핑되지 않도록 이미지가 다시 한번 테두리에 의해 패딩될 수 있고, 또는 최후의 수단으로서 고 우선순위 영역의 일부가 크로핑될 수 있다.
도 7은 입력 디지털 이미지(710)를 보인 것이다. 얼굴 박스는 720에 도시되어 있다. 전술한 바와 같이 얼굴 크기, 위치 및 종횡비에 의해 좌우되는 얼굴 패딩 룰을 이용해서, 패딩 얼굴 박스를 포함한 중간 우선순위 영역이 조합된 패딩 얼굴 박스 영역으로서 730에 도시되어 있다. 그 다음에, 상기 중간 우선순위 영역은 740 및 750에 도시된 것처럼 저 우선순위 영역을 형성하는 만족한 구성을 위해 확장된다. 확장 방향 및 양은 중간 우선순위 영역의 위치 및 크기뿐만 아니라 요구된 출력 종횡비에 의해 지시된다. 이미지(740)에 있어서, 2개의 검출된 얼굴 박스가 상부 좌측 사각형 내에 있고, 요구된 출력 종횡비는 가로 포맷이다. 그래서, 크로핑 알고리즘은 중간 우선순위 영역을 하측 및 우측으로 확장하여 저 우선순위 영역을 형성할 것이다. 전술한 바와 같이, 얼굴 박스가 상부 우측 사각형 내에 존재하면, 크로핑 알고리즘은 저 우선순위 영역을 형성하기 위한 조합된 패딩 영역을 확장하기 위해 하측 및 좌측으로 치우치게 했을 것이다. 만일 얼굴 포즈 및 시선이 가능(enable)하게 되면, 알고리즘은 이미지 내의 각 얼굴에 대한 방위를 표시하는 벡터를 계산한다. 벡터의 평균 방향은 얼굴이 바라보는 방향 또는 평균 방향으로 저 우선순위 영역 형성을 치우치게 하기 위해 사용된다. 만일 가로 이미지가 출력 포맷으로서 바람직하면, 결정 박스(760)는 중간 우선순위 영역을 이미지(740)에서와 같이 하향으로 및 우측으로 확장하게 한다. 만일 세로 이미지가 바람직하면, 결정 박스(760)는 중간 우선순위 영역을 이미지(750)에서와 같이 하향으로 확장하게 한다. 결과적인 저 우선순위 영역은 만일 출력 종횡비 강제가 없었다면 입력 이미지의 최적의 만족한 구성으로 간주되게 된다. 만일 출력 종횡비 강제가 없다면 저 우선순위 영역은 최종 이미지를 규정한다.
특정의 출력 종횡비 강제, 예를 들면 요구된 출력 포맷이 있으면, 알고리즘은 저 우선순위 영역과 출력 종횡비 강제 간의 임의의 차를 교정하여 강제적인 종횡비 크롭 박스를 형성한다. 일반적으로, 저 우선순위 영역의 콘텐트는 가능하면 희생되지 않는다. 그래서, 크로핑 알고리즘은 특정의 요구된 출력 종횡비 강제와 동등한 저 우선순위 영역 내측에 강제적인 종횡비 크롭 박스를 형성하고 크롭 박스가 저 우선순위 영역을 충분히 내포할 때까지 상기 크롭 박스를 성장시킨다. 요구된 출력 종횡비가 저 우선순위 영역과 일치하지 않으면, 입력 이미지의 무관련 부분이 저 우선순위 영역의 좌측 및 우측으로, 또는 상부 및 하부로 상기 강제적인 종횡비 출력 이미지에 포함될 것이다. 입력 이미지 무관련 부분이 허용되기 때문에, 강제적인 종횡비 크롭 박스는 저 우선순위 영역에 센터링된다. 그러나, 만일 입력 이미지의 상측, 하측, 좌측 또는 우측에 있는 이미지 경계가 이 센터링된 저 우선순위 영역에 포함되면, 알고리즘은 원래의 이미지 콘텐트만이 최종 이미지에 포함되도록 크롭 박스가 강제 없이 반대측으로 확장하는 것을 허용한다. 이로써 알고리즘은 저 우선순위 영역 내측의 화소 희생을 회피하고, 원래 이미지 경계가 최종 출력 종횡비 이미지를 형성하기 때문에 원래 이미지 경계를 최종 이미지 경계 중의 하나로 이용할 수 있다.
사용자가 복수의 입력 이미지를 각종 종횡비의 복수의 템플릿 개공(opening)에 삽입해야 하는 워크플로우에 있어서, 저 우선순위 영역 종횡비는 어떤 이미지가 전자동 이미지 템플릿 이행의 목표를 달성하기 위한 템플릿 개공에 가장 잘 적합한지에 관한 중요한 표시자가 된다. 저 우선순위 영역 종횡비는 모든 템플릿 개공 종횡비와 비교된다. 상기 2개의 종횡비가 유사할수록 적합성이 좋아진다.
도 8은 이미지(810)에서와 같은 가로 출력 종횡비가 요구될 때, 그리고 이미지(820)에서와 같은 세로 출력 종횡비가 요구될 때, 입력으로서 종횡비 6:4를 가진 이미지(710)로부터 시작하는 예시적인 출력 이미지를 보인 것이다. 양 이미지에서, 검출된 얼굴 박스(811, 812) 및 중간 우선순위 영역(815, 825)은 동일하다. 저 우선순위 영역(816, 826), 및 강제적인 출력 종횡비를 가진 최종 출력 이미지(817, 827)가 또한 도시되어 있다. 817에 있어서, 알고리즘은 상측 및 하측 테두리가 전술한 바와 같이 저 우선순위 영역의 상측 및 하측 테두리와 일치될 때까지 최종의 요구된 강제적인 출력 종횡비 박스를 만족시키도록 확장할 수 있었다. 827에 있어서, 알고리즘은 좌측 및 우측 테두리가 전술한 바와 같이 저 우선순위 영역의 좌측 및 우측 테두리와 일치될 때까지 최종의 강제적인 출력 종횡비 박스를 만족시키도록 또한 확장할 수 있었다.
양 이미지(810, 820)에 있어서, 알고리즘은 최종의 강제적인 출력 종횡비 박스를 저 우선순위 영역에 가능한 한 엄격하게 맞춘다. 일부 경우에, 이것은 이미지에서 너무 많은 줌을 야기할 수 있다. 예를 들면, 이미지의 테두리가 맞춰질 때까지 810 및 820에서 최종의 강제적인 출력 종횡비 박스를 계속하여 확장할 수 있다. 구체적으로, 이 경계가 저 우선순위 영역에 대해 가능한 한 타이트하도록, 또는 이미지 테두리 중의 하나에 대해 가능한 한 타이트하도록, 또는 이들 사이의 어딘가에 대해 타이트하도록 사용자 조정 가능 파라미터가 알고리즘에 추가된다. 이것은 전술한 아마추어 대 전문가 크로핑 모드를 이용하는 것과 동일한 알고리즘이다. 사실상, 만일 사용자가 얼마나 많은 크로핑을 선호하는지에 대한 통보된 추정(informed estimate)이 이루어질 수 있으면, 이 파라미터는 급히 자동으로 조정될 수 있다. 예를 들어서, 현재의 이미지를 제외한 사용자 컬렉션 내의 모든 이미지가 4:3 종횡비이면, 이것은 사용자가 현재 이미지 종횡비를 변경하려고 노력하였음을 표시할 수 있다. 사용자는 현재 이미지에서 종횡비를 수동으로 또는 자동으로 변경하기 위해 수동 크로핑을 이미 수행하였거나 다른 오프라인 절차를 사용하였다. 어느 방법이든, 알고리즘은 이것을 검출하고, 전문가 방향으로 치우치며, 그래서 알고리즘은 최종의 강제적인 출력 종횡비 박스를 이미지 테두리에 가능한 한 타이트하게 선택적으로 맞출 것이다. 이 적극적인 파라미터를 자동으로 설정하는 다른 방법은 사용자 컬렉션의 모든 이미지의 종횡비 변화를 관찰하는 것이다. 변화가 크다는 것은 사용자가 다른 카메라, 다른 슈팅 모드, 세로와 가로 간의 전환, 및/또는 수동 크로핑 이미지를 사용하고 있음을 의미한다. 그래서, 변화가 크면 클수록 전문가 모드로의 치우침이 더 크고, 마찬가지로 변화가 작으면 작을수록 아마추어(디폴트) 모드로의 치우침이 더 크다. 마찬가지로, 센터링 및 3등분의 룰 크로핑에 의해 획득되는 것인 크로핑 결과를 나타내는 이미지들을 나란히 사용자에게 제공함으로써, 특수 크로핑 알고리즘에 대한 사용자의 선호도가 그에 따라서 획득, 저장 및 사용될 수 있다.
양쪽의 예시적인 이미지(810, 820)에 있어서, 알고리즘은 이미지 영역 내에서 유지되면서 저 우선순위 영역으로부터 최종의 강제적인 출력 종횡비 박스까지 확장할 수 있었다. 더 극단적인 가로 또는 세로 출력 이미지 종횡비를 형성하기 위한 요구가 있으면, 강제적인 출력 종횡비 크롭 박스를 맞추는 처리는 출력 이미지를 동종의 비-콘텐트 테두리로 패딩하는 것, 저 우선순위 영역 내측의 화소들을 희생하는 것, 또는 추가의 이미지 소스를 이용하여 원래 이미지를 연장하는 것이 야기된다.
도 9는 요구된 출력 종횡비가 16:9인 경우의 예를 보인 것이다. 시작 이미지(910)는 이미지(810, 820)와 동일하다. 구체적으로, 이미지(920, 930)에 도시된 것처럼 2개의 패딩 옵션이 결정 박스(940)에서 제공된다. 알고리즘은, 전술한 바와 같이, 만일 저 우선순위 영역(916)으로부터 화소를 제거하는 것이 허용되지 않으면 이미지(920)를 생성하도록 분기할 것이다. 종종, 저 우선순위 영역은 만족한 결과를 생성하는 템플릿 또는 매트(matte) 테두리에 이미지를 통합함으로써 더 만족스럽게 형성될 수 있다. 이것이 가능하지 않은 경우에, 이미지의 가장자리가 비-콘텐트 테두리로(이 경우에는 좌측 및 우측 테두리에서) 패딩된다. 이것은 일부 예에서는 원하지 않는 것일 수 있고, 따라서 이미지(930)를 생성하기 위한 알고리즘 분기에서 도시된 것처럼 저 우선순위 영역으로부터 화소들을 생략할 필요가 있다.
만일 입력 이미지(910)가 이미지 컬렉션의 일부이었거나 이미지가 그 이미지와 연관된 GPS 정보를 갖고 있었으면, 도 9에 도시되지 않은 제3 옵션을 갖는다. 동일한 장소에서 취해진 다른 이미지를 찾기 위해 장면 매칭, 카메라 내인성 및 외인성 파라미터 모델링, 및 일괄 조정 또는 유사한 기술을 사용할 수 있다. 예를 들어서, 만일 자유의 여신상 앞에 서있는 두 사람의 세로 이미지를 가지고 있고 16x9의 강제적인 종횡비 프린트를 원하였다면, 통상 상당량 줌을 행하여 원래 이미지의 상측 및 하측으로부터 아마도 가치있는 정보를 손실하였을 것이다. SIGGRAPH 2008에 Noah Snavely, Rahul Garg, Steven M. Seitz 및 Richard Szeliski가 기고한 "Finding Paths Through the World's Photos"(이 문헌은 여기에서의 인용에 의해 그 전체 내용이 본원에 통합된다)에서 설명한 기술을 이용해서, 동일한 위치에서 취해진 다른 이미지를 찾을 뿐만 아니라, 원래 이미지의 좌측 및 우측에 정보를 시임리스로 블렌딩하여 최종의 16x9의 강제적인 종횡비 이미지가 자유 여신상의 상측 및 하측을 완전하게 포함하도록 할 수 있다.
저 우선순위 영역(916)으로부터 화소들을 크로핑할 필요가 있을 때, 도 10을 참조하여 설명하는 하기의 알고리즘이 수행되어 6:4 종횡비의 입력 이미지가 25:10의 요구된 출력 종횡비로 재구성된다. 이 알고리즘은 16:9 종횡비를 나타내는 이미지(930)를 생성하는 데에도 동일하게 적용할 수 있다.
1. 25:10의 요구된 출력 종횡비인 강제적인 종횡비 크롭 영역은 저 우선순위 영역(1016)에 디지털식으로 센팅링되어 강제적인 치수가 입력 이미지의 일단부로부터 타단부(1020으로 표시된 이미지에서 좌측 및 우측 입력 이미지 테두리)로 연장하고, 크로핑된 치수(수직)의 중심이 저 우선순위 영역의 중심에 중첩된다(1020의 이미지는 요구된 출력 종횡비를 유지하면서 저 우선순위 영역(1016)의 수직으로 센터링된 크롭으로부터 생성된다). 만일 저 우선순위 영역(1016)으로부터 크로핑되어 제거된 화소가 없다면, 크로핑은 완료된다. 그렇지 않으면, 단계 2)로 진행하여 중간 우선순위 영역을 이용하여 절차를 다시 시작한다. 이미지(1020)는 1016에서 수직으로 센터링된 샘플 크로핑을 보인 것이다. 화소들이 저 우선순위 영역(1016)으로부터 크로핑되었기 때문에, 단계 2)를 계속한다.
2. 강제적인 종횡비 크롭 영역이 중간 우선순위 영역(1015)에 다시 센터링된다. 위의 단계 1)에서 설명한 저 우선순위 영역에서와 동일한 절차를 수행한 후에 중간 우선순위 영역으로부터 화소들이 크로핑되지 않으면 크로핑이 완료된다. 그렇지 않으면, 단계 3)으로 진행한다. 1030은 중간 우선순위 영역(1015)에서 수직으로 센터링된 샘플 크로핑을 보인 것이다. 화소들이 중간 우선순위 영역(1015)으로부터 크로핑되었기 때문에, 고 우선순위 영역을 이용하여 절차를 다시 시작하기 위해 단계 3)을 계속한다.
3. 전술한 단계들을 진행하여 고 우선순위 영역에 센터링하는 대신에, 고 우선순위 영역의 중심의 약간 위의 지점에 센터링함으로써 양호한 결과가 산출된다는 것이 경험적 테스트에 의해 밝혀졌다. 그러므로, 강제적인 종횡비 크롭 영역의 중심이 식별되고 고 우선순위 영역의 중심의 약간 위의 지점에 놓이게 된다(중첩된다). 이 지점은 고 우선순위 영역의 상측으로부터 측정된 고 우선순위 영역의 전체 수직 높이의 40% 지점에 배치된다. 1040은 이 40/60 방법을 이용한 샘플 크로핑을 보인 것이다.
4.0 얼굴 영역의 조정
만일 단계 3)에서 고 우선순위 영역으로부터 임의의 화소가 크로핑되어 없어지고 복수의 중간 우선순위 영역을 갖는 것으로 미리 결정되었으면(도 6a에서 645 및 647로 도시된 것처럼), 얼굴 조정 단계가 계속된다. 얼굴 조정은 중간 우선순위 영역, 고 우선순위 영역, 및 개별 얼굴 박스 레벨에서 일어난다. 만일 복수의 중간 우선순위 영역이 있으면, 먼저 가장 작은 중간 우선순위 영역을 선택적으로 무시하지만, 그 대응하는 고 우선순위 영역은 유지한다. 만일 상기 가장 작은 중간 우선순위 영역을 무시함으로써 고 우선순위 영역이 모두 이 예에서 25:10 종횡비 출력에 의해 규정된 최종의 크로핑된 이미지에 맞춰지면, 크로핑이 완료된다. 그렇지 않으면, 방금 무시된 가장 작은 중간 우선순위 영역에 대응하는 고 우선순위 영역을 먼저 추가로 무시하고, 그 다음에 두번째로 작은 중간 우선순위 영역을 무시한다. 이 처리는 모든 나머지의 고 우선순위 영역이 맞춰지고 요구된 종횡비로 최종의 크로핑된 이미지에서 인식될 때까지, 또는 무시되지 않고 남아있는 단지 하나의 중간 우선순위 영역을 가질 때까지 계속된다.
중간 우선순위 영역이 무시되는 순서는, 이들 영역이 복수 개 있는 상황에서, 이러한 영역의 크기 및 위치에 따라서 조절될 수 있다. 각각의 중간 우선순위 영역에 대하여 스코어가 주어지고, 낮은 스코어를 가진 영역이 먼저 무시된다. 그러한 영역이 무시되면, 이것은 알고리즘이 중간 우선순위 영역을 더 이상 인식하지 못한다는 것을 의미한다. 영역이 크면 클수록 그 스코어가 더 높아지고, 영역이 더 중심에 있을수록 그 스코어가 더 높아진다. 공식적으로, 중간 우선순위 영역의 스코어는 다음과 같이 주어진다. (그 면적 ÷ 입력 이미지의 면적) + (0.5 × 조합된 패딩 영역의 위치). 첫번째 항은 0과 1 사이에서 변하는 크기 표시자를 산출한다. 두번째 항, 즉 패딩 영역의 위치는 조합된 패딩 영역의 중심과 입력 이미지의 중심 간의 거리를 계산하고, 그 다음에 이것을 입력 이미지의 폭 또는 높이의 최소치의 절반으로 나눔으로써 산출된다. 이것은 0과 1 사이에서 역시 연속적으로 변화하는 두번째 항에 대한 값을 산출한다. 크기는 위치보다 더 중요한 것으로 간주되고, 따라서 이 공식에 의해 2배만큼 가중된다. 최저의 스코어를 가진 중간 우선순위 영역이 먼저 무시된다. 이 기술에 숙련된 사람이라면 가장자리 위치에 대한 비선형 중심 및 비선형 중간 우선순위 영역 크기와 같은 다른 변체를 포함하도록 상기 공식을 확장하는 법을 알고 있을 것이다. 영역의 중심은 그 영역에 포함된 가장 먼 상측, 하측, 우측 및 좌측 지점을 기준으로 사용하여 그 영역의 수직 중간점 및 수평 중간점으로서 규정된 지점이다.
만일 단지 하나의 중간 우선순위 영역이 유지되고, 고 우선순위 영역 전체가 최종의 크로핑된 이미지에 맞지 않으면, 고 우선순위(얼굴 박스) 레벨에서의 조정이 수행된다. 고 우선순위 영역 레벨에서의 조정은 단지 하나의 중간 우선순위 영역이 있고 강제적인 종횡비 크롭이 고 우선순위 영역으로부터 화소들을 제거할 때 호출된다. 조합된 패딩 영역에서의 조정과 마찬가지로, 이제 개별 얼굴 박스의 등급을 정하고, 결과적인 최고 우선순위 영역의 모든 화소들이 강제적인 종횡비 크롭 박스에 포함될 때까지 한번에 하나의 얼굴 박스를 무시하기 시작한다. 개별 얼굴 박스는 크기, 위치, 눈 깜박임, 시선, 얼굴 표정, 노출, 콘트라스트, 노이즈, 및 선예도에 따라 다시 한번 가중된다. 얼굴 조정에 의해 얼굴들이 제거되기 때문에, 또는 더 일반적으로 얼굴 영역 또는 패딩 얼굴 영역이 강제적 종횡비를 고수하도록 무시되기 때문에, 알고리즘은 크롭 경계를 상기 무시된 구역으로부터 멀리 우선적으로 치우치게 하여 최종의 강제적 종횡비 이미지의 가장자리에서 얼굴의 반이 나타나는 것을 최소화한다.
얼굴 포즈, 눈 깜박임, 표정, 노출, 노이즈 및 선예도를 이 스코어 메커니즘에 추가하는 것은 더 계산 집약적이지만, 더욱 만족한 결과를 산출한다. 도 6b에서, 개별 얼굴 레벨에서의 낮은 눈 깜박임 및 표정 스코어는 얼굴(662)이 추가 처리에서 무시되게 하였다. 중간 우선순위 영역(조합된 패딩 얼굴 박스)과 관련해서, 각각의 눈 깜박임 또는 곁눈 시선은 누적적인 조합된 중간 우선순위 영역 스코어를 (1-1/n)만큼 증배시킨다. 여기에서, n은 중간 우선순위 영역 내의 얼굴의 수이다. 그래서, 만일 중간 우선순위 영역에 2개의 얼굴이 있고 한 사람이 깜박이면, 스코어는 절반으로 깎인다. 만일 4개의 얼굴이 있고, 그 중 하나가 깜박이고 다른 하나가 곁눈으로 바라보고 있으면, 중간 우선순위 영역 스코어에 (3/4)(3/4) = 9/16을 곱한다. 얼굴 표정은 패딩된 얼굴 박스 스코어를 증가시킬 수도 있고 감소시킬 수도 있다. 중립의 얼굴은 영향을 주지 않고 승수가 1이다. 양호한 표정(행복한 표정, 활기찬 표정 등)은 1 이상의 승수로 박스 스코어를 증가시키고, 네거티브 또는 원하지 않는 표정은 1 미만의 승수로 전체 스코어를 감소시킨다. 이러한 가중치는 본 발명의 알고리즘에 쉽게 프로그램될 수 있다. 얼굴 표정은 눈 깜박임 또는 눈 시선보다 약간 더 많이 관대하지만, 과도하게 슬픈 표정, 화난 표정, 두려운 표정, 또는 실증난 표정의 얼굴은 낮게 등급이 정해지고, 행복한 표정 및 놀란 표정의 얼굴은 더 높게 등급이 정해진다. 각 얼굴에는 최대의 네거티브 표정에 대한 0.5로부터 최대의 포지티브 표정에 대한 1.5까지 표정 값이 할당된다. 그 다음에, 상기 표정 값은 더 큰 얼굴이 더 많은 가중치를 갖도록 얼굴 크기에 의해 조정되고, 중간 우선순위 영역 전체에 대한 표정 승수로서 가중 평균이 사용된다. 노출, 콘트라스트, 노이즈 및 선예도 표시자는 만일 얼굴이 너무 어둡거나 밝으면, 콘트라스트가 높거나 낮으면, 노이즈가 너무 많으면, 너무 흐릿하면, 패딩된 얼굴 박스의 가중치를 각각 유사하게 감소시킨다. 승수에 대한 이러한 값의 할당은 임의적이고 더 복잡하게 될 수 있으며, 비선형 룰이 또한 고안될 수 있다는 것이 이 기술에 숙련된 사람에게는 명백할 것이다.
컴퓨터 비전 및 응용에서의 IPSJ 트랜잭션(IPSJ Transactions on Computer Vision and Applications), 2009에 A. Gallagher 및 T. Chen이 기고한 "Using Context to Recognize People in Consumer Images"에서 설명된 것처럼 사람들 간의 기지의 밀집 관계를 포함하도록 얼굴 조정을 확장하는 것도 또한 가능하다. 이 경우에, 만일 이미지의 상부에서 얼굴 박스를 찾고 하나 이상의 더 작은 얼굴이 그 아래에 있으면, 종종 2개의 상측 얼굴이 부모이고 그 아래의 얼굴들이 자식이라고 추론할 수 있다. 마찬가지로, 만일 상측의 얼굴을 찾았고 그 아래의 얼굴이 경사진 형태를 가지면, 종종 부모가 어린이 또는 아이를 안고 있는 것이라고 추론할 수 있다. 그래서, 만일 고 우선순위 영역 전체가 최종의 크로핑된 이미지에 맞지 않으면, 기지의 부모-자식, 부모-유아, 및 성인 커플 관계에 기초하여 단일의 고 우선순위 영역을 복수의 더 작은 얼굴 박스(패딩된 것 또는 패딩되지 않은 것)로 분할할 수 있다. 마찬가지로, 문화, 사회 및 종교에 대한 이전의 지식을 호출할 수 있다. 또한, 분리는 나이, 성별, 아이덴티티, 수염, 안경, 모발의 유형, 모자, 보석, 화장, 문신, 흉터, 또는 임의의 다른 구별 가능한 특징에 의해 행하여질 수 있다. 컴퓨터 비전 및 패턴 인식에 관한 IEEE 회의(IEEE Conference on Computer Vision and Pattern Recognition), 2008에 A. Gallagher 및 T. Chen이 기고한 "Clothing Cosegmentation for Recognizing People"(이 문헌은 여기에서의 인용에 의해 그 전체 내용이 본원에 통합된다)에서 설명된 것과 같은 의류 검출 기술을 이용해서, 디지털 이미지 내의 개별 영역을 목도리, 의류 또는 유니폼에 의해 추가로 세분할 수 있다.
5.0 크롭 영역의 소프트카피 뷰잉
본 발명의 대안적인 구현 예는 알고리즘을 이용하여 디지털 프레임, TV, 컴퓨터 슬라이드쇼 등과 같은 소프트카피 장치에서 모션 이미지를 생성하는 것을 포함하고, 여기에서 하나의 단일 디지털 이미지로부터 수 개의 크롭 변체(crop variation)가 출력될 수 있다. 예를 들면, 이미지의 저 우선순위 영역을 디스플레이하고, 연속적인 모션 디스플레이에서 그 중간 우선순위 영역으로 줌인하고, 그 다음에 그 고 우선순위 영역으로 줌인하고, 마지막으로 한번에 하나씩 이미지 내의 각 얼굴 박스에 대한 패닝을 시작하는 자동 디스플레이 시퀀스를 프로그램하는 것은 간단한 일이다. 얼굴 박스 크기 및 형태에 의해, 또는 나이, 인종 또는 성별 인식, 또는 이들의 조합에 의해 발견되는 집단이 부모 등에게 줌인될 수 있고, 또는 한 쪽에 딸들이 있으면 모두 연속적인 모션 이미지로서 그 딸들에게 줌인할 수 있다. 이러한 종류의 디스플레이는 당업계에서 "켄 번즈 효과"(Ken Burns effect)라고 부르고 있다.
6.0 중간 우선순위 영역에 대하여 사용되는 패딩
이제, 도 6a에서 개별적인 패딩된 얼굴 박스(631-635)를 형성하는 방법, 더 구체적으로, 도 6a에서 중간 우선순위 영역(645, 647)의 구성에 사용된 각 얼굴 박스 주위의 개별적인 패딩에 대하여 설명한다. 예를 들면, 비록 얼굴 검출이 도 6a의 모든 얼굴(611-615)들의 크기 및 위치에 반환한다 하더라도, 이것은 도 6a에서 대응하는 패딩된 얼굴 박스(631-635)의 크기 및 위치를 결정하는 방법을 설명하지 못한다. 전형적으로, 각각의 패딩된 얼굴 박스(631-635)는 얼굴 박스(611-615) 자체에 센터링되고 얼굴 박스(611-615) 자체보다 약간 더 크지만, 각 얼굴 박스의 좌측, 우측, 상측 및 하측에 대한 상이한 패딩량을 포함해서 이 패딩을 제어하는 몇 가지 메커니즘이 있다. 이 설명을 돕기 위해 얼굴폭(FaceWidth)이라고 부르는 측정 단위를 도입하고, 여기에서, 하나의 얼굴폭은 얼굴 검출 설비로부터 복귀된 얼굴 박스의 폭 또는 높이보다 더 크다. 또한 입력 이미지의 높이 또는 폭보다 더 작은 최소폭높이(MinWidthHeight)라고 부르는 변수를 도입한다.
패딩된 얼굴 박스 크기를 제어하는 제1 메커니즘은 얼굴폭과 최소폭높이 간의 관계이다. 더 작은 얼굴 박스는 더 큰 패딩을 받는다. 더 큰 얼굴 박스는 더 적은 패딩을 받는다. 이것은 도 11에 도시된 것처럼 비선형 관계(1100)이다. 얼굴(1212)과 같은, 입력 이미지(1201)의 최소폭높이의 10% 이하인 얼굴폭은 얼굴의 양측 및 상측에서 2x 얼굴폭의 최대 패딩(1211)을 받는다. 1222와 같은 최소폭높이의 20%인 얼굴은 얼굴의 양측 및 상측에서 대략 1x 얼굴폭 패딩(1221)을 받는다. 1332(얼굴 박스는 도시되지 않음)와 같은 최소폭높이의 40%인 얼굴은 얼굴의 양측 및 상측에서 대략 1/2x 얼굴폭 패딩(1331)을 받는다. 1442(얼굴 박스는 도시되지 않음)와 같은 최소폭높이의 80% 이상인 얼굴은 얼굴의 양측 및 상측에서 대략 1/4x 얼굴폭 패딩(1441)을 받는다. 이러한 패딩량은 도 11에 도시된 그래프로부터 일반적으로 쉽게 도출될 수 있고, 사용자 선호도에 따라 쉽게 조정가능하며, 알고리즘을 구현하는 프로그램에 의해 액세스하도록 선택되어 컴퓨터 시스템에 저장될 수 있다.
얼굴을 패딩할 때, 중간 우선순위 영역의 임의의 패딩된 측면이, 하나의 얼굴이 디지털 이미지의 가장자리에 너무 가깝기 때문에 이미지 경계를 넘어서 연장하는지를 계속하여 추적한다. 만일 이러한 일이 발생하면, 그 특수한 중간 우선순위 영역의 반대쪽 단부에서 대칭 클리핑이 자동으로 수행되어 도 15에 도시된 바와 같이 대칭인 중간 우선순위 영역을 만든다. 중간 우선순위 영역(1540)의 좌측은 패딩된 얼굴 구역(1520)의 우측 가장자리가 입력 이미지(1503)의 경계를 넘어서 연장하는 것과 동일한 양만큼 클립되어(1550), 대칭 클리핑이 좌측(1510) 및 우측(1520)의 패딩된 얼굴 박스(박스는 도시되지 않음)에 대하여 수행된다.
얼굴 박스 아래의 패딩(하향 패드)는 주어진 입력 이미지 종횡비에 의해 바람직한 출력 종횡비 및 얼굴 박스 크기로 조절된다. 얼굴 아래의 초기 패딩은 입력 대 출력 종횡비에 의해 결정된다. 이것은 도 16에 도시된 것처럼 비선형 2-D 관계이다. 작은 출력 종횡비는 세로 이미지에 대응하고, 큰 종횡비는 가로 이미지에 대응한다. 도 16의 맵핑 함수는 일반적으로 세로 샷에서 더 하향인 패딩을 제공하고, 가로 샷에서 덜 하향인 패딩을 제공한다. 알고리즘은 극단적인 세로인 입력 이미지(수평축)에 대하여 최소의 적극성을 갖고, 그 출력 포맷(수직축)은 극단적인 가로 종횡비를 갖는다는 점에 주목해야 한다. 이것은 도 17에서의 맵핑의 상부 좌측 영역에서 반영되고, 이때 승수 값 1.0이 최저이다. 도 16은 샘플 2-D 맵핑을 보인 것이고, 이 기술에 숙련된 사람이라면 임의의 비선형 관계가 대체될 수 있다는 것을 이해할 것이다.
도 16에 도시된 바와 같은 입력 대 출력 종횡비에 의해 발생된 초기의 하향 패드에 의해, 이제 얼굴 크기에 의한 하향 패드를 감쇠(dampen)시킨다. 더 큰 얼굴은 얼굴 전반에 걸쳐서 더 많은 대칭 패딩을 갖는다. 더 작은 얼굴은 종횡비에 의해 결정된, 더 작은 감쇠를 갖거나 감쇠가 없는 요구된 하향 패딩을 갖는다. 도 17은 1.0으로부터 하향으로 1/다운패드까지 맵하는 샘플 비선형 함수(1720)를 보인 것이며, 여기에서 다운패드(downpad)는 도 16에 도시된 바와 같이 입력 대 출력 종횡비에 의해 결정된 하향 패딩이다. 이 함수는 최소폭높이의 40% 이하의 폭을 가진 얼굴 박스가 전체 얼굴 패드를 사용하고(1x 스칼라) 최소폭높이의 60% 이상인 얼굴이 얼굴 전반에 걸쳐서 동일한 패딩, 즉 여분의 하향 패딩을 야기하지 않는 최대 감쇠를 갖는 구분적 선형 함수이다. 다른 모든 얼굴은 상기 2개의 지점들 사이에서 선형으로 보간된다. 도 18은 얼굴 박스(도시 생략됨) 크기가 입력 이미지 경계(1801)의 높이에 비례하고, 상측 및 측면 패드 크기가 1821 및 1831로 표시되며, 얼굴 크기 변수 다운패드 요소(1825, 1835)를 각각 나타내는 샘플 얼굴(1822, 1832)을 보인 것이다.
여기에서 설명한 알고리즘들은 모두 워크스테이션이든 휴대용 장치이든 현대의 컴퓨터 시스템에서의 연산이 매우 빠르다. 사실, 실행 시간(running time)은 얼굴 검출 또는 얼굴 특징 추출 시간에 의해서만 제한된다. 경험적 연구에 의하면 여기에서 설명한 방법들은 더 단순한 얼굴(크기 및 위치) 기반 크로핑 방법뿐만 아니라 더 복잡한 주요 피사체 검출 방법, 특히 얼굴 검출을 포함한 주요 피사체 검출 방법보다도 성능이 우수한 것으로 밝혀졌다. 정지 상의 경우에, 알고리즘 추천 크로핑은 자동으로 출력되고, 영상인 경우에, 알고리즘은 엄격하게 크로핑된 얼굴(고 우선순위 영역)로부터 느슨하게 크로핑된 얼굴(중간 우선순위 영역)으로, 이상적으로 구성된 이미지(저 우선순위 영역)로, 다시 역으로 부드럽게 천이하는 모션 이미지를 자동으로 출력하거나, 또는 임의의 우선순위 레벨을 가진 임의의 영역들 간의 패닝을 포함할 수 있다. 또한, 영상이 하나의 얼굴로부터 다음 얼굴로 팬(pan)할 수 있을 뿐만 아니라, 얼굴들의 집단이 발견되면 영상이 사용자의 상호작용 없이 하나의 영역으로부터 다음 영역으로 자동으로 팬할 수 있다. 마지막으로, 자동으로 발생된 저, 중간 및 고 우선순위 크롭 영역은, 얼굴 박스 영역 및 최종의 강제적인 출력 종횡비 크롭 박스와 함께 메타 데이터로서 파일에 다시 저장되거나, 또는 후속 사용을 위해 데이터베이스에 저장될 수 있다.
대안적인 실시형태
비록 여기에서 설명한 방법들이 인간의 얼굴과 관련하여 시행되지만, 이 방법들은 임의의 관심 있는 특정의 객체를 포함하도록 확장될 수 있다는 것은 명백하다. 예를 들면, 인간의 얼굴 대신에, CVPR 2003에 Ramanan, D. 및 Forsyth, D.A.가 기고한 "Finding and Tracking People From the Bottom Up"(이 문헌은 여기에서의 인용에 의해 그 전체 내용이 본원에 통합된다)에서 설명된 바와 같이 인체 또는 인간 토르소(torso)에 기반하여 영역들을 추출할 수 있다. 마찬가지로, 비전, 이미지 및 신호 처리(Vision, Image and Signal Processing), 2006에 Burghardt, T. 및 Calic, J.가 기고한 "얼굴 검출 및 추적을 이용한 야생동물 영상의 동물 행동 분석"(Analysing Animal Behavior in Wildlife Videos Using Face Detection and Tracking)(이 문헌은 여기에서의 인용에 의해 그 전체 내용이 본원에 통합된다)에서 설명된 바와 같이 인간 얼굴 검출기를 훈련하기 위해 사용되는 것과 동일한 기술을 이용하여, 애완견, 고양이, 또는 물고기를 포함한 임의 종류의 동물들을 찾기 위해, 또는 박테리아, 바이러스 또는 장기(internal organ)에 대해서, 또는 자동차, 군용차량 또는 조립 라인의 부품들을 찾기 위해 훈련할 수 있다. 또한, CVPR 2011에 Shotton, Jamie 등이 기고한 "Real-Time Human Pose Recognition in Parts from Single Depth Images"(이 문헌은 여기에서의 인용에 의해 그 전체 내용이 본원에 통합된다)에서 설명된 바와 같이 마이크로소프트의 키넥트 및 실루엣 추출 기술과 같은 깊이 카메라를 도입함으로써, 인간을 실시간으로 탐색 및 추적하는 것이 보편화되었고, 그러한 인간은 깊이, 형태 또는 제스처에 의해 세분화될 수 있다.
101 원격 시스템 102 리모콘
103 마우스 104 키보드
105 버스 106 원격 출력
107 센서 108 이미지 센서
109 스토리지/메모리 110 HDD
111 드라이브 112 분리형 장치
113 인터페이스 114 슬롯
115 통신 시스템 116 프로세서/CPU 시스템
117 로컬 출력 118 마우스
119 키보드 121 I/O 장치
122 스캐너 123 프린터
124 I/O 장치 125 하우징
200 워크스테이션/PC 201 제어/편집 영역
202 사용자 209 스토리지/메모리
217 로컬 출력 218 마우스
219 키보드 220 오디오 센서
221 이미지 센서 222 센서 시스템
310 이미지 320 이미지
321 크롭 테두리 322 크롭 테두리
326 얼굴 박스 327 얼굴 박스
330 이미지 340 이미지
341 크롭 테두리 342 크롭 테두리
346 얼굴 박스 347 얼굴 박스
350 이미지 410 이미지
430 이미지 435 이미지
450 이미지 455 이미지
510 이미지 520 이미지
521 얼굴 박스 522 얼굴 박스
523 얼굴 박스 524 얼굴 박스
525 얼굴 박스 530 이미지
535 조합된 얼굴 박스 540 이미지
541 패딩된 얼굴 박스 542 패딩된 얼굴 박스
543 패딩된 얼굴 박스 550 이미지
555 조합된 패딩 얼굴 박스 560 이미지
565 조합된 패딩 얼굴 박스 567 확장 조합된 패딩 얼굴 박스
610 이미지 611 얼굴 박스
612 얼굴 박스 613 얼굴 박스
614 얼굴 박스 615 얼굴 박스
618 조합된 얼굴 박스 620 이미지
625 조합된 얼굴 박스 627 조합된 얼굴 박스
630 이미지 631 패딩된 얼굴 박스
632 패딩된 얼굴 박스 633 패딩된 얼굴 박스
634 패딩된 얼굴 박스 635 패딩된 얼굴 박스
640 이미지 641 크롭 테두리
645 조합된 패딩 얼굴 박스 647 조합된 패딩 얼굴 박스
660 이미지 661 얼굴 박스
662 얼굴 박스 663 얼굴 박스
664 얼굴 박스 665 얼굴 박스
668 조합된 얼굴 박스 670 이미지
675 인식된 얼굴 박스 677 조합된 얼굴 박스
680 이미지 681 패딩된 얼굴 박스
682 패딩된 얼굴 박스 683 패딩된 얼굴 박스
684 패딩된 얼굴 박스 685 패딩된 얼굴 박스
690 이미지 691 크롭 테두리
695 인식된 패딩된 얼굴 박스 696 인식된 패딩된 얼굴 박스
697 인식된 조합된 패딩 얼굴 박스 710 이미지
720 이미지 730 이미지
740 이미지 750 이미지
760 결정 흐름 810 이미지
811 얼굴 박스 812 얼굴 박스
815 조합된 패딩 얼굴 박스 816 확장 조합된 패딩 얼굴 박스
817 강제적인 확장 조합된 패딩 얼굴 박스 825 조합된 패딩 얼굴 박스
826 확장 조합된 패딩 얼굴 박스 827 강제적인 확장 조합된 패딩 얼굴 박스
910 이미지 911 얼굴 박스
912 얼굴 박스 915 조합된 패딩 얼굴 박스
916 확장 조합된 패딩 얼굴 박스 920 이미지
921 얼굴 박스 922 얼굴 박스
925 조합된 패딩 얼굴 박스 926 확장 조합된 패딩 얼굴 박스
927 원래의 이미지 테두리 930 이미지
931 얼굴 박스 932 얼굴 박스
935 조합된 패딩 얼굴 박스 936 확장 조합된 패딩 얼굴 박스
940 결정 흐름 1010 이미지
1011 얼굴 박스 1012 얼굴 박스
1013 조합된 얼굴 박스 1015 중간 우선순위 영역
1016 저 우선순위 영역 1020 이미지
1030 이미지 1040 이미지
1100 함수 1201 이미지
1211 패딩 1212 얼굴 박스
1221 패딩 1222 얼굴 박스
1302 이미지 1331 패딩
1332 얼굴 1403 이미지
1441 패딩 1442 얼굴
1503 이미지 1510 좌측 얼굴 박스
1520 우측 얼굴 박스 1540 조합된 패딩 얼굴 박스
1550 대칭 크롭 1710 다운패딩
1720 함수 1801 이미지
1821 패딩 1822 얼굴
1825 다운패딩 1831 패딩
1832 얼굴 1835 다운패딩

Claims (22)

  1. 컴퓨팅 시스템에 있어서,
    디지털 이미지를 저장하는 전자 메모리와,
    인간의 얼굴을 각각 포함한 디지털 이미지의 임의의 개별 영역을 식별하고, 2개 이상의 상기 개별 영역을 각각 패딩하고, 하나 이상의 개별 패팅 영역을 각각 포함하는 2개 이상의 조합된 패딩 영역을 디지털식으로 규정하고, 각각의 상기 조합된 패딩 영역에 대한 적합성 스코어 할당을 비롯하여 상기 조합된 패딩 영역을 각각 자동으로 평가하고, 적합성 스코어가 미리 선택된 임계치 미만인 적어도 하나의 상기 조합된 패딩 영역을 무시하는 프로세서
    를 포함하는 컴퓨팅 시스템.
  2. 제1항에 있어서, 상기 적어도 하나의 조합된 영역의 테두리는 각각 상기 개별 영역의 적어도 하나의 테두리와 동일 선상에 있는 것인 컴퓨팅 시스템.
  3. 제1항에 있어서, 상기 프로세서는 상기 적어도 하나의 조합된 영역이 대강의 3등분 룰(broad rule of thirds)을 만족하도록 상기 디지털 이미지를 자동으로 수정하는 프로그램을 포함하는 것인 컴퓨팅 시스템.
  4. 제1항에 있어서, 상기 프로세서는 상기 적어도 하나의 조합된 영역이 엄격한 3등분의 룰(strict rule of thirds)을 만족하도록 상기 디지털 이미지를 자동으로 수정하는 프로그램을 포함하는 것인 컴퓨팅 시스템.
  5. 제1항에 있어서, 상기 프로세서는 상기 조합된 패딩 영역 중 남아있는 무시되지 않은 영역이 그들의 임의의 화소를 제거하지 않고 보존되도록 상기 디지털 이미지의 종횡비를 자동으로 수정하는 프로그램을 포함하는 것인 컴퓨팅 시스템.
  6. 제1항에 있어서, 상기 프로세서는 상기 조합된 패딩 영역 중 남아있는 영역에 기초하여 상기 디지털 이미지의 종횡비를 자동으로 수정하는 프로그램을 포함하는 것인 컴퓨팅 시스템.
  7. 제1항에 있어서, 상기 프로세서는 상기 적어도 하나의 조합된 패딩 영역의 크기가 상기 조합된 패딩 영역 중의 최대 영역보다 미리 선택된 크기만큼 더 작은 경우에 상기 수정된 디지털 영역으로부터 상기 조합된 패딩 영역 중의 적어도 하나를 배제하는 것을 비롯하여 각각의 상기 조합된 패딩 영역의 크기를 결정하는 프로그램을 포함하는 것인 컴퓨팅 시스템.
  8. 제7항에 있어서, 상기 프로세서는 각각의 상기 조합된 패딩 영역의 크기를 각각의 상기 조합된 패딩 영역의 면적 또는 폭에 의해 결정하는 프로그램을 더 포함하는 것인 컴퓨팅 시스템.
  9. 제1항에 있어서, 상기 프로세서는 각각의 상기 조합된 패딩 영역에 대한 적합성 스코어를 크기, 깜박임, 시선 방향, 표정, 포즈(pose), 오클루션(occlusion), 선예도, 노출 또는 콘트라스트에 기초하여 결정하는 프로그램을 포함하는 것인 컴퓨팅 시스템.
  10. 제9항에 있어서, 상기 프로세서는 크기, 깜박임, 시선 방향, 표정, 포즈, 오클루션, 선예도, 노출 또는 콘트라스트에 기초하여 각 개별 영역에 대한 적합성 스코어를 할당하는 것을 비롯하여 각 개별 영역을 자동으로 평가하고, 상기 개별 영역 적합성 스코어의 가중된 조합에 기초하여 각각의 상기 조합된 패딩 영역에 대한 적합성 스코어를 결정하는 프로그램을 더 포함하는 것인 컴퓨팅 시스템.
  11. 제1항에 있어서, 상기 프로세서는 상기 적어도 하나의 조합된 패딩 영역을 식별하기 위한 디지털 이미지 데이터와 연관하여 저장하는 프로그램을 포함하는 것인 컴퓨팅 시스템.
  12. 제1항에 있어서, 상기 프로세서는 하나 이상의 개별 패팅 영역 중 중첩되는 영역만을 조합함으로써 각각의 상기 조합된 패딩 영역을 규정하는 프로그램을 포함하는 것인 방법.
  13. 제1항에 있어서, 상기 프로세서는 하나 이상의 개별 패팅 영역 중 중첩되는 영역만을 조합함으로써 각각의 상기 조합된 패딩 영역을 규정하는 프로그램을 포함하고, 상기 중첩되는 양은 미리 선택된 임계치보다 더 큰 것인 방법.
  14. 컴퓨팅 시스템에 있어서,
    디지털 이미지를 저장하는 전자 메모리와;
    인간의 얼굴을 포함한 디지털 이미지의 적어도 하나의 개별 영역을 식별하고, 2개 이상의 상기 개별 영역을 각각 패딩하고, 하나 이상의 개별 패팅 영역을 각각 포함하는 2개 이상의 조합된 패딩 영역을 디지털식으로 규정하고, 각각의 상기 조합된 패딩 영역에 대한 적합성 스코어 할당을 비롯하여 상기 조합된 패딩 영역을 각각 자동으로 평가하고, 상기 조합된 패딩 영역 중 최고 스코어를 가진 영역이 대강의 3등분의 룰을 만족하도록 상기 디지털 이미지를 자동으로 수정하는 프로세서
    를 포함하는 컴퓨팅 시스템.
  15. 제14항에 있어서, 상기 프로세서는 상기 대강의 3등분의 룰을 만족하는 상기 조합된 패딩 영역 중 최고 스코어를 가진 복수의 영역을 포함시키는 프로그램을 포함하는 것인 컴퓨팅 시스템.
  16. 제15항에 있어서, 상기 프로세서는 상기 대강의 3등분의 룰을 만족시키기 위해 상기 조합된 패딩 영역 중 최고 스코어를 가진 복수의 영역의 중심을 이용하는 프로그램을 더 포함하는 것인 컴퓨팅 시스템.
  17. 제15항에 있어서, 상기 프로세서는 상기 대강의 3등분의 룰을 만족시키기 위해 상기 조합된 패딩 영역 중 최고 스코어를 가진 복수의 영역의 가중된 중심을 이용하는 프로그램을 포함하고, 상기 가중된 중심은 상기 조합된 패딩 영역 중 최고 스코어를 가진 복수의 영역의 적합성 스코어에 의해 규정된 것인 컴퓨팅 시스템.
  18. 컴퓨팅 시스템에 있어서,
    디지털 이미지를 저장하는 전자 메모리와,
    인간의 얼굴을 각각 포함한 디지털 이미지의 임의의 개별 영역을 식별하고, 2개 이상의 상기 개별 영역을 각각 패딩하고, 하나 이상의 개별 패팅 영역을 각각 포함하는 2개 이상의 조합된 패딩 영역을 디지털식으로 규정하고, 수정된 패딩된 영역에 대한 출력 종횡비의 요구를 수신하고, 각각의 상기 조합된 패딩 영역에 대한 적합성 스코어 할당을 비롯하여 상기 조합된 패딩 영역을 각각 자동으로 평가하고, 상기 조합된 패딩 영역의 전부가 상기 요구된 출력 종횡비에 맞춰질 수 없는 경우에 상기 조합된 패딩 영역 중 최저 스코어를 가진 하나 이상의 영역을 무시하는 프로세서
    를 포함하는 컴퓨팅 시스템.
  19. 제18항에 있어서, 상기 프로세서는 상기 수정된 디지털 이미지에 대한 상기 요구된 출력 종횡비가 실행된 경우에 적어도 하나의 상기 조합된 패딩 영역 중의 일부가 삭제될 것이라는 통지를 자동으로 검출 및 발행하는 프로그램을 포함하는 것인 컴퓨팅 시스템.
  20. 제18항에 있어서, 상기 프로세서는 상기 수정된 디지털 이미지에 대한 상기 요구된 출력 종횡비를 만족하도록 비-콘텐트 테두리를 상기 디지털 이미지에 추가하는 프로그램을 포함하는 것인 컴퓨팅 시스템.
  21. 제14항에 있어서, 상기 프로세서는 하나 이상의 개별 패팅 영역 중 중첩되는 영역만을 조합함으로써 각각의 상기 조합된 패딩 영역을 규정하는 프로그램을 포함하는 것인 방법.
  22. 제14항에 있어서, 상기 프로세서는 하나 이상의 개별 패팅 영역 중 중첩되는 영역만을 조합함으로써 각각의 상기 조합된 패딩 영역을 규정하는 프로그램을 포함하고, 상기 중첩되는 양은 미리 선택된 임계치보다 더 큰 것인 방법.
KR1020147013538A 2011-10-28 2012-10-11 얼굴 검출을 이용한 이미지 재구성 KR101605983B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/284,633 US9025836B2 (en) 2011-10-28 2011-10-28 Image recomposition from face detection and facial features
US13/284,633 2011-10-28
PCT/US2012/059687 WO2013062775A1 (en) 2011-10-28 2012-10-11 Image recomposition using face detection

Publications (2)

Publication Number Publication Date
KR20140076632A true KR20140076632A (ko) 2014-06-20
KR101605983B1 KR101605983B1 (ko) 2016-03-23

Family

ID=47138171

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147013538A KR101605983B1 (ko) 2011-10-28 2012-10-11 얼굴 검출을 이용한 이미지 재구성

Country Status (4)

Country Link
US (1) US9025836B2 (ko)
JP (1) JP5857133B2 (ko)
KR (1) KR101605983B1 (ko)
WO (1) WO2013062775A1 (ko)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8724910B1 (en) * 2010-08-31 2014-05-13 Google Inc. Selection of representative images
US20120257072A1 (en) 2011-04-06 2012-10-11 Apple Inc. Systems, methods, and computer-readable media for manipulating images using metadata
WO2012169119A1 (ja) * 2011-06-10 2012-12-13 パナソニック株式会社 物体検出枠表示装置及び物体検出枠表示方法
US8938100B2 (en) 2011-10-28 2015-01-20 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US9025836B2 (en) 2011-10-28 2015-05-05 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US20130108119A1 (en) * 2011-10-28 2013-05-02 Raymond William Ptucha Image Recomposition From Face Detection And Facial Features
US9008436B2 (en) 2011-10-28 2015-04-14 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US9025835B2 (en) 2011-10-28 2015-05-05 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US8811747B2 (en) * 2011-10-28 2014-08-19 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
JP6178048B2 (ja) * 2012-06-06 2017-08-09 ソニー株式会社 画像処理装置、画像処理方法、及びプログラム
US9595298B2 (en) 2012-07-18 2017-03-14 Microsoft Technology Licensing, Llc Transforming data to create layouts
JP5882975B2 (ja) 2012-12-26 2016-03-09 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法、及び記録媒体
JP6295534B2 (ja) * 2013-07-29 2018-03-20 オムロン株式会社 プログラマブル表示器、制御方法、およびプログラム
EP3686754A1 (en) * 2013-07-30 2020-07-29 Kodak Alaris Inc. System and method for creating navigable views of ordered images
US10394882B2 (en) * 2014-02-19 2019-08-27 International Business Machines Corporation Multi-image input and sequenced output based image search
US9424653B2 (en) * 2014-04-29 2016-08-23 Adobe Systems Incorporated Method and apparatus for identifying a representative area of an image
US9420331B2 (en) 2014-07-07 2016-08-16 Google Inc. Method and system for categorizing detected motion events
US10140827B2 (en) 2014-07-07 2018-11-27 Google Llc Method and system for processing motion event notifications
US9213903B1 (en) 2014-07-07 2015-12-15 Google Inc. Method and system for cluster-based video monitoring and event categorization
US9501915B1 (en) 2014-07-07 2016-11-22 Google Inc. Systems and methods for analyzing a video stream
US10127783B2 (en) 2014-07-07 2018-11-13 Google Llc Method and device for processing motion events
US9449229B1 (en) 2014-07-07 2016-09-20 Google Inc. Systems and methods for categorizing motion event candidates
EP3175773A4 (en) * 2014-07-30 2018-10-10 Olympus Corporation Image processing device
US10282069B2 (en) 2014-09-30 2019-05-07 Microsoft Technology Licensing, Llc Dynamic presentation of suggested content
US9626768B2 (en) * 2014-09-30 2017-04-18 Microsoft Technology Licensing, Llc Optimizing a visual perspective of media
USD782495S1 (en) 2014-10-07 2017-03-28 Google Inc. Display screen or portion thereof with graphical user interface
US9361011B1 (en) 2015-06-14 2016-06-07 Google Inc. Methods and systems for presenting multiple live video feeds in a user interface
CN105260732A (zh) * 2015-11-26 2016-01-20 小米科技有限责任公司 图片处理方法及装置
US10506237B1 (en) 2016-05-27 2019-12-10 Google Llc Methods and devices for dynamic adaptation of encoding bitrate for video streaming
US10192415B2 (en) 2016-07-11 2019-01-29 Google Llc Methods and systems for providing intelligent alerts for events
US10380429B2 (en) 2016-07-11 2019-08-13 Google Llc Methods and systems for person detection in a video feed
US10957171B2 (en) 2016-07-11 2021-03-23 Google Llc Methods and systems for providing event alerts
EP3306527B1 (en) 2016-10-05 2021-01-06 Canon Europa N.V. A method of cropping an image, an apparatus for cropping an image, a program and a storage medium
US10205835B1 (en) 2016-10-10 2019-02-12 Walgreen Co. Photograph cropping using facial detection
US10380228B2 (en) 2017-02-10 2019-08-13 Microsoft Technology Licensing, Llc Output generation based on semantic expressions
US10817709B2 (en) * 2017-03-10 2020-10-27 Hitachi Kokusai Electric Inc. Similar image search system
US11783010B2 (en) 2017-05-30 2023-10-10 Google Llc Systems and methods of person recognition in video streams
US10410086B2 (en) 2017-05-30 2019-09-10 Google Llc Systems and methods of person recognition in video streams
JP2019029998A (ja) * 2017-07-28 2019-02-21 キヤノン株式会社 撮像装置、撮像装置の制御方法、および制御プログラム
US10896318B2 (en) 2017-09-09 2021-01-19 Apple Inc. Occlusion detection for facial recognition processes
US10664688B2 (en) 2017-09-20 2020-05-26 Google Llc Systems and methods of detecting and responding to a visitor to a smart home environment
US11134227B2 (en) 2017-09-20 2021-09-28 Google Llc Systems and methods of presenting appropriate actions for responding to a visitor to a smart home environment
KR102653177B1 (ko) * 2018-10-29 2024-04-01 삼성에스디에스 주식회사 객체 정보 추출 장치 및 방법
US11893795B2 (en) 2019-12-09 2024-02-06 Google Llc Interacting with visitors of a connected home environment

Family Cites Families (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69712676T2 (de) 1996-07-08 2003-01-02 Hyundai Curitel Inc Verfahren zur Videokodierung
US6282317B1 (en) 1998-12-31 2001-08-28 Eastman Kodak Company Method for automatic determination of main subjects in photographic images
JP2000259814A (ja) 1999-03-11 2000-09-22 Toshiba Corp 画像処理装置及びその方法
US6654506B1 (en) 2000-01-25 2003-11-25 Eastman Kodak Company Method for automatically creating cropped and zoomed versions of photographic images
US6940545B1 (en) 2000-02-28 2005-09-06 Eastman Kodak Company Face detecting camera and method
US7127087B2 (en) 2000-03-27 2006-10-24 Microsoft Corporation Pose-invariant face recognition system and process
US6545743B1 (en) 2000-05-22 2003-04-08 Eastman Kodak Company Producing an image of a portion of a photographic image onto a receiver using a digital image of the photographic image
US6654507B2 (en) 2000-12-14 2003-11-25 Eastman Kodak Company Automatically producing an image of a portion of a photographic image
GB2370438A (en) * 2000-12-22 2002-06-26 Hewlett Packard Co Automated image cropping using selected compositional rules.
EP1508120B1 (en) 2002-05-28 2014-08-06 Casio Computer Co., Ltd. Composite image output apparatus and composite image delivery apparatus
US8363951B2 (en) 2007-03-05 2013-01-29 DigitalOptics Corporation Europe Limited Face recognition training method and apparatus
US7616233B2 (en) 2003-06-26 2009-11-10 Fotonation Vision Limited Perfecting of digital image capture parameters within acquisition devices using face detection
US7574016B2 (en) 2003-06-26 2009-08-11 Fotonation Vision Limited Digital image processing using face detection information
US7317815B2 (en) 2003-06-26 2008-01-08 Fotonation Vision Limited Digital image processing composition using face detection information
US7171058B2 (en) 2003-07-31 2007-01-30 Eastman Kodak Company Method and computer program product for producing an image of a desired aspect ratio
US7640516B2 (en) 2003-09-30 2009-12-29 Hewlett-Packard Development Company, L.P. Arranging graphic objects on pages
JP2005141523A (ja) * 2003-11-07 2005-06-02 Konica Minolta Photo Imaging Inc 画像処理方法
US20060140445A1 (en) 2004-03-22 2006-06-29 Cusack Francis J Jr Method and apparatus for capturing digital facial images optimally suited for manual and automated recognition
US7697785B2 (en) * 2004-03-31 2010-04-13 Fuji Xerox Co., Ltd. Generating a highly condensed visual summary
US20060072847A1 (en) * 2004-10-01 2006-04-06 Microsoft Corporation System for automatic image cropping based on image saliency
US20060115185A1 (en) * 2004-11-17 2006-06-01 Fuji Photo Film Co., Ltd. Editing condition setting device and program for photo movie
US8488023B2 (en) 2009-05-20 2013-07-16 DigitalOptics Corporation Europe Limited Identifying facial expressions in acquired digital images
US20060182433A1 (en) 2005-02-15 2006-08-17 Nikon Corporation Electronic camera
US7843466B2 (en) * 2005-07-29 2010-11-30 Vistaprint Technologies Limited Automated image framing
EP1917659A1 (en) 2005-08-19 2008-05-07 Telefonaktiebolaget LM Ericsson (publ) Image management
KR100717402B1 (ko) 2005-11-14 2007-05-11 삼성전자주식회사 멀티미디어 데이터의 장르를 판단하는 장치 및 방법
US8150155B2 (en) * 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
US8265349B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Intra-mode region-of-interest video object segmentation
JP2007235189A (ja) * 2006-02-27 2007-09-13 Seiko Epson Corp フレーム合成処理装置、印刷装置およびフレーム合成方法
US7949186B2 (en) 2006-03-15 2011-05-24 Massachusetts Institute Of Technology Pyramid match kernel and related techniques
JP2007274017A (ja) * 2006-03-30 2007-10-18 Fujifilm Corp 自動トリミング方法および装置ならびにプログラム
JP2007336515A (ja) 2006-05-15 2007-12-27 Olympus Imaging Corp カメラ、画像出力装置、画像出力方法、画像記録方法、プログラム及び記録媒体
US7961938B1 (en) 2006-06-30 2011-06-14 Adobe Systems Incorporated Finding and structuring images based on a color search
JP4683339B2 (ja) * 2006-07-25 2011-05-18 富士フイルム株式会社 画像トリミング装置
US7916897B2 (en) 2006-08-11 2011-03-29 Tessera Technologies Ireland Limited Face tracking for controlling imaging parameters
JP4388939B2 (ja) * 2006-09-25 2009-12-24 富士フイルム株式会社 画像再生装置ならびにその制御方法およびその制御プログラム
JP4787180B2 (ja) 2007-01-24 2011-10-05 富士フイルム株式会社 撮影装置及び撮影方法
US8218830B2 (en) * 2007-01-29 2012-07-10 Myspace Llc Image editing system and method
JP4902562B2 (ja) 2007-02-07 2012-03-21 パナソニック株式会社 撮像装置、画像処理装置、制御方法およびプログラム
JP4974724B2 (ja) * 2007-03-19 2012-07-11 キヤノン株式会社 画像供給装置、印刷装置及びそれらの制御方法並びに印刷システム
JP4998995B2 (ja) * 2007-06-08 2012-08-15 富士フイルム株式会社 アルバム作成装置および方法ならびにプログラム
JP4974788B2 (ja) 2007-06-29 2012-07-11 キヤノン株式会社 画像処理装置、画像処理方法、プログラム、及び記憶媒体
US8717412B2 (en) 2007-07-18 2014-05-06 Samsung Electronics Co., Ltd. Panoramic image production
JP2009048490A (ja) * 2007-08-21 2009-03-05 Toshiba Corp 類似ショット検出装置、プログラムおよび方法
JP4909840B2 (ja) 2007-08-21 2012-04-04 株式会社東芝 映像処理装置、プログラムおよび方法
JP4957463B2 (ja) 2007-08-30 2012-06-20 セイコーエプソン株式会社 画像処理装置
JP4946741B2 (ja) 2007-09-05 2012-06-06 セイコーエプソン株式会社 画像処理装置、画像処理方法、及び画像処理システム
JP2009110486A (ja) 2007-11-01 2009-05-21 Sony Corp 画像処理装置、画像処理方法および画像処理プログラム、並びに、撮像装置および撮像装置の制御方法
US20100272365A1 (en) 2007-11-29 2010-10-28 Koji Yamamoto Picture processing method and picture processing apparatus
US8587614B2 (en) 2007-12-10 2013-11-19 Vistaprint Schweiz Gmbh System and method for image editing of electronic product design
JP4891270B2 (ja) * 2008-01-22 2012-03-07 キヤノン株式会社 画像編集装置、画像編集方法及びプログラム
KR101464572B1 (ko) 2008-03-20 2014-11-24 인스티튜트 퓌어 룬트퐁크테크닉 게엠베하 작은 스크린 크기들에 대해 비디오 이미지들을 적응시키는 방법
KR100947990B1 (ko) 2008-05-15 2010-03-18 성균관대학교산학협력단 차영상 엔트로피를 이용한 시선 추적 장치 및 그 방법
JP2010027035A (ja) 2008-06-16 2010-02-04 Canon Inc 個人認証装置及び個人認証方法
US8433106B2 (en) 2008-07-08 2013-04-30 Hewlett-Packard Development Company, L.P. Increasing face detection speed
JP5239625B2 (ja) * 2008-08-22 2013-07-17 セイコーエプソン株式会社 画像処理装置、画像処理方法および画像処理プログラム
US20100070876A1 (en) * 2008-09-18 2010-03-18 Pictela, Inc. Self-Replicating Rich Media Interface
JP2010073002A (ja) 2008-09-19 2010-04-02 Hoya Corp 画像処理装置およびカメラ
JP2010107938A (ja) * 2008-10-02 2010-05-13 Seiko Epson Corp 撮像装置、撮像方法、及びプログラム
US8385609B2 (en) 2008-10-21 2013-02-26 Flashfoto, Inc. Image segmentation
US8433138B2 (en) 2008-10-29 2013-04-30 Nokia Corporation Interaction using touch and non-touch gestures
KR101539043B1 (ko) * 2008-10-31 2015-07-24 삼성전자주식회사 인물 구도 제안 영상 촬영 장치 및 방법
JP2010117787A (ja) * 2008-11-11 2010-05-27 Seiko Epson Corp 画像処理装置
US8249388B2 (en) 2008-11-24 2012-08-21 Microsoft Corporation Identifying portions of an image for cropping
JP5116652B2 (ja) 2008-12-24 2013-01-09 三洋電機株式会社 撮像装置および笑顔記録プログラム
JP5136444B2 (ja) 2009-01-29 2013-02-06 セイコーエプソン株式会社 画像処理方法およびそのプログラム並びに画像処理装置
US8121358B2 (en) * 2009-03-06 2012-02-21 Cyberlink Corp. Method of grouping images by face
KR101527387B1 (ko) 2009-03-09 2015-06-09 삼성전자 주식회사 디스플레이장치 및 그 제어방법
JP2010224677A (ja) * 2009-03-19 2010-10-07 Seiko Epson Corp 画像評価方法、画像評価プログラムおよび印刷装置
US8237771B2 (en) * 2009-03-26 2012-08-07 Eastman Kodak Company Automated videography based communications
US8965869B2 (en) * 2009-05-13 2015-02-24 Yahoo! Inc. Systems and methods for generating a web page based on search term popularity data
US20100299627A1 (en) 2009-05-20 2010-11-25 Qualcomm Incorporated Method and apparatus for content boundary detection and scaling
US8907984B2 (en) * 2009-07-08 2014-12-09 Apple Inc. Generating slideshows using facial detection information
US8274523B2 (en) 2009-07-30 2012-09-25 Eastman Kodak Company Processing digital templates for image display
KR101615719B1 (ko) 2009-09-18 2016-04-27 삼성전자주식회사 사용자의 3차원 얼굴 표정 추출 방법 및 장치
US20110143728A1 (en) 2009-12-16 2011-06-16 Nokia Corporation Method and apparatus for recognizing acquired media for matching against a target expression
JP5538909B2 (ja) 2010-01-05 2014-07-02 キヤノン株式会社 検出装置およびその方法
JP5031877B2 (ja) * 2010-01-06 2012-09-26 キヤノン株式会社 画像処理装置及び画像処理方法
JP5640388B2 (ja) * 2010-01-28 2014-12-17 株式会社ニコン 画像処理装置、撮像装置、および画像処理プログラム
JP2011188342A (ja) 2010-03-10 2011-09-22 Sony Corp 情報処理装置、情報処理方法及びプログラム
US8233789B2 (en) 2010-04-07 2012-07-31 Apple Inc. Dynamic exposure metering based on face detection
CN103003770A (zh) 2010-05-20 2013-03-27 日本电气株式会社 便携信息处理终端
US8593545B2 (en) * 2010-06-09 2013-11-26 Olympus Imaging Corp. Imaging apparatus, imaging method, and computer-readable recording medium with switched image capturing mode
JP5725793B2 (ja) * 2010-10-26 2015-05-27 キヤノン株式会社 撮像装置およびその制御方法
JP5704905B2 (ja) 2010-12-01 2015-04-22 キヤノン株式会社 画像処理装置及び画像処理方法、プログラム、並びに記憶媒体
US8625847B2 (en) 2011-03-21 2014-01-07 Blackberry Limited Login method based on direction of gaze
US20120259638A1 (en) 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
US20120268359A1 (en) 2011-04-19 2012-10-25 Sony Computer Entertainment Inc. Control of electronic device using nerve analysis
JP5793353B2 (ja) 2011-06-20 2015-10-14 株式会社東芝 顔画像検索システム、及び顔画像検索方法
US8723798B2 (en) 2011-10-21 2014-05-13 Matthew T. Vernacchia Systems and methods for obtaining user command from gaze direction
US8938100B2 (en) * 2011-10-28 2015-01-20 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US20130108168A1 (en) * 2011-10-28 2013-05-02 Raymond William Ptucha Image Recomposition From Face Detection And Facial Features
US20130108170A1 (en) * 2011-10-28 2013-05-02 Raymond William Ptucha Image Recomposition From Face Detection And Facial Features
US8811747B2 (en) 2011-10-28 2014-08-19 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US9025836B2 (en) 2011-10-28 2015-05-05 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US20130108119A1 (en) 2011-10-28 2013-05-02 Raymond William Ptucha Image Recomposition From Face Detection And Facial Features

Also Published As

Publication number Publication date
KR101605983B1 (ko) 2016-03-23
JP2014535108A (ja) 2014-12-25
US9025836B2 (en) 2015-05-05
US20130108122A1 (en) 2013-05-02
JP5857133B2 (ja) 2016-02-10
WO2013062775A1 (en) 2013-05-02

Similar Documents

Publication Publication Date Title
KR101605983B1 (ko) 얼굴 검출을 이용한 이미지 재구성
US8938100B2 (en) Image recomposition from face detection and facial features
US9008436B2 (en) Image recomposition from face detection and facial features
US8811747B2 (en) Image recomposition from face detection and facial features
US11321385B2 (en) Visualization of image themes based on image content
US20130108168A1 (en) Image Recomposition From Face Detection And Facial Features
US10896478B2 (en) Image grid with selectively prominent images
US20200097703A1 (en) Imaging workflow using facial and non-facial features
US20130108119A1 (en) Image Recomposition From Face Detection And Facial Features
US8532347B2 (en) Generation and usage of attractiveness scores
US20130108171A1 (en) Image Recomposition From Face Detection And Facial Features
US8548249B2 (en) Information processing apparatus, information processing method, and program
US20130108170A1 (en) Image Recomposition From Face Detection And Facial Features
US20130108166A1 (en) Image Recomposition From Face Detection And Facial Features
US9025835B2 (en) Image recomposition from face detection and facial features
US9106838B2 (en) Automatic photographing method and system thereof
JP5878523B2 (ja) コンテンツ加工装置とその集積回路、方法、およびプログラム
US20130108167A1 (en) Image Recomposition From Face Detection And Facial Features
US20130108157A1 (en) Image Recomposition From Face Detection And Facial Features
JP7027101B2 (ja) 情報処理装置、制御方法、及びプログラム
WO2012153744A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2014170980A (ja) 情報処理装置、情報処理方法および情報処理プログラム
US11682210B1 (en) Methods and device for video data analysis
CN113012039B (zh) 图像处理方法、装置、电子设备及存储介质
Souza et al. Generating an Album with the Best Media Using Computer Vision

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee