KR101660576B1

KR101660576B1 - 시각 장애 사용자들에 의한 이미지 캡처 및 이미지 검토의 촉진

Info

Publication number: KR101660576B1
Application number: KR1020137033847A
Authority: KR
Inventors: 제레미 홀랜드; 에릭 시모어; 크리스 플레이자크; 딘 허드슨
Original assignee: 애플 인크.
Priority date: 2011-06-24
Filing date: 2012-05-10
Publication date: 2016-09-27
Also published as: WO2012177333A3; WO2012177333A2; US9536132B2; US20120327258A1; KR20140012757A; EP2724290A2; AU2012273435B2; CN103688273B; CN103688273A; AU2012273435A1

Abstract

시각 장애 사용자들에 의한 시각 이미지들의 캡처 및 검토를 용이하게 하기 위한 기술들 및 메커니즘들이 제공된다. 일 실시예에서, 이러한 기술들 및 메커니즘들은 사전 이미지 캡처 기능 및 캡처 이미지 검토 기능을 포함한다. 사전 이미지 캡처 기능을 이용하여, 오디오 메시지들이 사용자에게 제공되어, 사용자가 이미지 캡처링 메커니즘을 적절히 배치하여 사진 내에 원하는 피사체들을 캡처하고, 사진 내에 피사체들을 적절히 프레이밍하고, 사진 내에 피사체들을 적절히 사이징하는 것 등을 돕는다. 이미지 검토 기능을 이용하여, 오디오 메시지들이 사용자에게 제공되어, 사용자가 캡처되어 사용자에게 표시되고 있는 시각 이미지를 즐기고 "가시화"하는 것을 돕는다. 이러한 기능들을 이용하여, 시각 장애 사용자는 현재 가능한 것보다 훨씬 더 높은 등급으로 이미지들을 캡처하고 검토할 수 있다.

Description

시각 장애 사용자들에 의한 이미지 캡처 및 이미지 검토의 촉진{FACILITATING IMAGE CAPTURE AND IMAGE REVIEW BY VISUALLY IMPAIRED USERS}

이동 전화, 스마트폰, 태블릿 컴퓨터 및 랩탑 컴퓨터와 같은 오늘날의 전자 장치들 중 다수는 사용자로 하여금 전자 장치를 이용하여 시각 이미지를 캡처하는 것을 가능하게 하는 이미지 캡처링 장치들(예를 들어, 카메라들)을 갖추고 있다. 일단 캡처되면, 시각 이미지는 전자 장치 상에서 표시 및/또는 편집되거나, 다른 장치로 전송되거나, 전자 장치 내에 저장된 콘택과 연관되거나, 사용자에 의해 딴 방법으로 사용될 수 있다.

일반적으로, 전부는 아니더라도 대부분의 이미지 캡처링 및 렌더링 장치들은 볼 수 있는 사용자들에 의해 사용되도록 설계된다. 시각 장애 사용자들의 경우, 이미지 캡처링 및 렌더링 장치를 효과적으로 이용하는 것은 불가능하지는 않더라도 매우 어렵다. 예컨대, 시각 장애 사용자가 이미지 캡처링 장치를 이용하여 사진을 찍으려고 시도하는 경우, 시각 장애 사용자는 (1) 사진 내에 적절한 피사체들(subjects)을 캡처하고; (2) 사진의 중앙에 피사체들을 배치하고; (3) 피사체들이 사진에 적합한 크기를 갖도록 적절한 거리 또는 줌 레벨에서 피사체들을 캡처하는 것 등을 행하기가 매우 어려울 것이다. 아마도, 시각 장애 사용자는 사진 내에 피사체들을 프레이밍(framing) 및 사이징(sizing)하는 것을 도울 정상인의 도움을 받아야 할 것이다.

마찬가지로, 시각 장애 사용자는 이미지 렌더링 장치에 의해 렌더링되고 있는 이미지를 의미있게 검토하고 즐기는 것이 불가능하지는 않지만 매우 어려울 것이다. 시각 장애 사용자는 사진 내에 얼마나 많은 사람이 있는지, 사진 내에 누가 있는지, 사진 내에 다양한 사람들이 어디에 있는지 등을 알지 못할 것이다. 또한, 시각 장애 사용자는 아마도 그에게 사진을 설명할 정상인의 도움을 받아야 할 것이다. 따라서, 일반적으로 설계되고 구성되는 바와 같은 이미지 캡처링 및 렌더링 장치들은 시각 장애 사용자들에게는 그다지 사용하기 쉽지 않다.

도 1은 본 발명의 일 실시예를 구현할 수 있는 샘플 장치의 블록도를 나타낸다.
도 2는 본 발명의 일 실시예에 따른, 이미지 캡처 프로세스 동안 도 1의 장치에 의해 수행되는 동작들의 흐름도를 나타낸다.
도 3은 본 발명의 일 실시예에 따른 프레임 추적의 일례를 도시한다.
도 4는 본 발명의 일 실시예에 따른, 이미지 검토 프로세스 동안 도 1의 장치에 의해 수행되는 동작들의 흐름도를 나타낸다.
도 5는 본 발명의 일 실시예에 따른, 어떻게 프레임을 9개 부분의 격자로 분할할 수 있는지를 보여준다.

개요

본 발명의 일 실시예에 따르면, 시각 장애 사용자들에 의한 시각 이미지들의 캡처 및 검토를 용이하게 하기 위한 기술들 및 메커니즘들이 제공된다. 일 실시예에서, 이러한 기술들 및 메커니즘들은 사전 이미지 캡처 기능 및 캡처 이미지 검토 기능을 포함한다. 사전 이미지 캡처 기능을 이용하여, 오디오 메시지들이 사용자에게 제공되어, 사용자가 이미지 캡처링 메커니즘을 적절히 배치하여 사진 내에 원하는 피사체들을 캡처하고, 사진 내에 피사체들을 적절히 프레이밍하고, 사진 내에 피사체들을 적절히 사이징하는 것 등을 돕는다. 이미지 검토 기능을 이용하여, 오디오 메시지들이 사용자에게 제공되어, 사용자가 캡처되어 표시되고 있는 시각 이미지를 즐기고 "가시화"하는 것을 돕는다.

사전 이미지 캡처 기능을 이용하여, 사용자는 이미지 캡처링 메커니즘(예로서, 카메라)을 갖는 전자 장치를 장면을 향해 지향시킬 수 있다. 주기적으로 또는 (예를 들어, 소정 제어를 터치하거나 소정 제스처 또는 움직임을 행함으로써) 장치의 소정 제어의 사용자 호출에 응답하여, 장치는 장면의 이미지를 사전 캡처한다. 이미지가 사전 캡처된 후, 장치는 이미지를 분석한다. 예를 들어, 장치는 얼굴 검출 기술들을 적용하여 얼마나 많은 얼굴이 이미지 내에 있는지를 결정할 수 있다. 장치는 또한, 각각의 얼굴을 구성하는 픽셀들을 식별할 수 있으며, 따라서 사전 캡처 이미지 내의 각각의 얼굴의 위치가 결정될 수 있다. 게다가, 장치는 얼굴 인식 기술들을 적용하여 얼굴들을 식별할 수 있다. 따라서, 장치는 사전 캡처 이미지 내의 얼굴을 "얼굴 1"로서 참조하는 것이 아니라, 얼굴을 "자카리(Zachary)"로서 식별할 수 있다. 더구나, 장치는 사전 캡처 이미지를 분석하여, 얼굴들 중 임의의 얼굴이 사진의 에지(예를 들어, 좌, 우, 상, 하)에 너무 가까운지를 결정할 수 있다. 게다가, 장치는 사전 캡처 이미지를 분석하여, 사진의 전체 크기에 대한 얼굴들의 크기를 결정할 수 있다.

사전 캡처 이미지를 분석한 후, 장치는 하나 이상의 오디오 메시지를 사용자에게 제공할 수 있다. 예를 들어, 이미지가 자카리 및 에밀리(Emily)에 속하는 얼굴들을 포함하는 경우, 장치는 "2개의 얼굴", "자카리", "에밀리"라고 말하는 오디오 메시지들을 제공할 수 있다. 장치는 이미지 내의 얼굴들의 위치들에 관한 오디오 메시지도 제공할 수 있다. 예를 들어, 얼굴이 사진의 좌측 에지에 너무 가까운 경우, 장치는 "좌측 에지 근처의 얼굴"이라고 말하는 오디오 메시지를 제공할 수 있다. 얼굴들이 이미지 내의 중앙에 있는 경우, 장치는 "중앙에 있는 얼굴들"이라고 말하는 오디오 메시지를 제공할 수 있다. 일부 예들에서, 얼굴은 다수의 에지(예로서, 상측 에지 및 좌측 에지)에 가까울 수 있다. 그러한 경우에, 장치는 "좌상 에지 근처의 얼굴"이라고 말하는 오디오 메시지를 제공할 수 있다. 장치는 이미지 내의 얼굴들의 크기들에 관한 오디오 메시지를 더 제공할 수 있다. 예를 들어, 얼굴들이 너무 작은 경우, 장치는 "얼굴들이 작다"고 말하는 오디오 메시지를 제공할 수 있다. 한편, 얼굴이 거의 전체 이미지를 채우는 경우, 장치는 "얼굴이 전체 폭이다"라고 말하는 오디오 메시지를 제공할 수 있다. 이들 및 다른 오디오 메시지들이 사용자에게 제공될 수 있다.

이러한 오디오 메시지들에 응답하여, 사용자는 이미지 캡처링 메커니즘의 배치를 변경하고, 피사체들에 더 가까이 또는 그들로부터 더 멀리 이동하고, 이미지 캡처링 메커니즘의 줌 특징을 조정하는 것 등을 행할 수 있다. 예를 들어, 사용자가 사진 내에 3개의 피사체를 캡처하는 것을 의도했지만, 현재 2개의 얼굴만이 검출되는 경우, 사용자는 이미지 캡처링 메커니즘을 재배치하여 3개의 피사체 모두를 캡처할 수 있다. 또한, 얼굴이 에지에 너무 가까운 경우, 사용자는 피사체들을 더 양호하게 중앙에 배치하기 위해 이미지 캡처링 메커니즘을 이동시킬 수 있다. 더구나, 얼굴들이 너무 작거나 너무 큰 경우, 사용자는 피사체들에 더 가까이 또는 그들로부터 더 멀리 이동하거나, 이미지 캡처링 메커니즘의 줌 팩터를 조정할 수 있다. 이들 및 다른 조정들이 사용자에 의해 행해질 수 있다. 조정들이 행해진 후, 사용자는 (장치가 다른 이미지를 사전 캡처하고 그 이미지를 분석한 후에 제공할) 장치로부터의 갱신된 오디오 메시지들을 기다릴 수 있다. 장치로부터의 오디오 메시지들에 응답하여 조정들을 행하는 반복 프로세스를 통해, 사용자는 원하는 정확한 이미지를 획득할 수 있다.

조정 프로세스의 일부로서, 사용자는 다양한 피사체들이 사전 캡처 이미지 내의 어디에 배치되어 있는지를 알기를 원할 수 있다. 일 실시예에서, 장치는 사전 캡처 이미지를 표시하는 터치 감지 디스플레이를 갖는다. 사용자는 디스플레이의 임의 부분을 터치할 수 있으며, 이러한 사용자 입력에 응답하여, 장치는 사용자에 의해 터치되고 있는 사전 캡처 이미지의 부분이 사진 내의 얼굴들 중 하나를 구성하는 픽셀들에 대응하는지를 결정한다. 이러한 결정에 기초하여, 장치는 적절한 오디오 메시지를 제공할 수 있다. 예를 들어, 사용자에 의해 터치되고 있는 부분이 사진 내의 어떠한 얼굴에도 대응하지 않는 경우, 장치는 삑 소리를 제공할 수 있다(또는 사용자에 의하여 선택된 소정의 다른 소리 또는 "아무 것도 없음"을 의미하는 소리로서 적절히 인정되는 소리를 제공하거나 소리를 전혀 제공하지 않을 수 있다). 한편, 터치된 부분이 사진 내의 얼굴에 대응하는 경우, 장치는 그것을 지시하는 오디오 메시지를 제공할 수 있다. 예컨대, 오디오 메시지는 "얼굴 1", "얼굴 2" 등을 말할 수 있다. 얼굴이 얼굴 인식 프로세스 동안 식별된 경우, 오디오 메시지는 더 구체적일 수 있다. 예컨대, 터치된 부분이 자카리의 얼굴에 대응하는 경우, 오디오 메시지는 "자카리"라고 말할 수 있다. 이러한 기능을 이용하여, 시각 장애 사용자는 피사체들이 사전 캡처 이미지 내의 어느 곳에 있는지 그리고 이들이 서로에 대해 어떻게 배치되어 있는지를 결정할 수 있다. 이것은 사용자가 이미지를 영구적으로 캡처하기 전에 이미지를 "가시화"하는 것을 가능하게 한다.

사용자가 장치로부터의 오디오 메시지들에 기초하여 피사체들에 대한 이미지 캡처링 메커니즘의 배치에 만족하면, 사용자는 (예를 들어, 소정의 제어를 터치하거나 소정의 제스처 또는 움직임을 행함으로써) 장치로 하여금 이미지를 영구적으로 캡처하고 저장하게 할 수 있다.

이미지가 캡처되고 저장된 후, 이미지를 분석하여 메타데이터의 세트를 도출한다. 일 실시예에서, 이러한 분석은 이미지가 영구적으로 캡처된 직후에 행해진다. 도출된 메타데이터는 이미지와 함께 저장되며, 캡처 이미지를 검토할 때 사용자의 경험을 향상시키는 데 사용될 수 있다. 일례로서, 얼굴 검출 기술들을 캡처 이미지에 적용하여, 얼마나 많은 얼굴이 이미지 내에 존재하는지를 결정할 수 있다. 검출된 얼굴들의 수는 캡처 이미지에 대한 메타데이터의 일부로서 저장될 수 있다. 게다가, 얼굴 검출 프로세스의 일부로서, 얼굴들을 구성하는 픽셀들이 식별될 수 있다. 이러한 정보를 이용하여, 사진 내의 얼굴들의 위치들이 특정될 수 있다. 이러한 픽셀 정보는 캡처 이미지에 대한 메타데이터의 일부로서 저장될 수 있다. 더구나, 얼굴 인식 기술들을 적용하여 사진 내에 나타나는 얼굴들을 식별할 수 있다. 따라서, 장치는 단지 사진 내에 2개의 얼굴이 존재한다는 것만을 아는 것이 아니라, 예를 들어 사진 내에 존재하는 사람이 자카리와 에밀리인 것으로 결정할 수 있다. 게다가, 이러한 식별 정보는 캡처 이미지에 대한 메타데이터의 일부로서 저장될 수 있다. 이들 및 다른 메타데이터 세트들이 도출되어 캡처 이미지와 함께 저장될 수 있다. 메타데이터가 도출되면, 장치는 이를 이용하여 사용자에게 피드백을 제공할 수 있다. 일 실시예에서, 이미지가 영구적으로 캡처된 후, 장치는 이미지에 관한 오디오 피드백을 사용자에게 제공한다. 예를 들어, 장치는 "2개의 얼굴", "자카리", "에밀리"라고 말하는 오디오 메시지들을 제공할 수 있다. 이러한 오디오 피드백은 어떤 이미지가 방금 캡처되었는지에 대한 확인을 사용자에게 제공한다.

소정 시점에, 사용자는 이전에 캡처된 이미지들을 표시하고 검토하기를 원할 수 있다. 일 실시예에서, 캡처 이미지가 시각 장애 사용자에게 표시될 때, 캡처 이미지와 함께 저장된 메타데이터를 이용하여, 사용자의 검토 경험을 향상시킬 수 있다. 예를 들어, 장치가 캡처 이미지를 표시할 때, 장치는 얼마나 많은 얼굴(예로서, "2개의 얼굴")이 이미지 내에 있는지를 지시하는 오디오 메시지를 제공할 수 있다. 캡처 이미지와 함께 저장된 메타데이터가 이미지 내의 얼굴들에 대한 식별 정보를 포함하는 경우, 장치는 사진 내에 누가 있는지를 특정하는 오디오 메시지들을 제공할 수 있다. 예를 들어, 오디오 메시지들은 "자카리", "에밀리"라고 말할 수 있다.

캡처 이미지가 표시된 후, 장치는 사용자가 이미지의 소정 부분을 터치하고 있음을 지시하는 입력을 수신할 수 있다(일 실시예에서, 캡처 이미지는 터치 감지 디스플레이 상에 표시된다). 메타데이터 내의 픽셀 정보를 이용하여, 장치는 사용자에 의해 터치되고 있는 이미지의 부분이 사진 내의 얼굴들 중 하나를 구성하는 픽셀들의 일부인지를 결정할 수 있다. 이러한 결정에 기초하여, 장치는 적절한 오디오 메시지를 제공할 수 있다. 예를 들어, 사용자에 의해 터치되고 있는 부분이 사진 내의 어떠한 얼굴에도 대응하지 않는 경우, 장치는 삑 소리를 제공할 수 있다(또는 사용자에 의하여 선택된 소정의 다른 소리 또는 "아무 것도 없음"을 의미하는 소리로서 적절히 인정되는 소리를 제공하거나 소리를 전혀 제공하지 않을 수 있다). 한편, 터치된 부분이 사진 내의 얼굴에 대응하는 경우, 장치는 그것을 지시하는 오디오 메시지를 제공할 수 있다. 예컨대, 오디오 메시지는 "얼굴 1", "얼굴 2" 등을 말할 수 있다. 메타데이터가 식별 정보를 포함하는 경우, 오디오 메시지는 더 구체적일 수 있다. 예를 들어, 터치된 부분이 자카리의 얼굴에 대응하는 경우, 오디오 메시지는 "자카리"라고 말할 수 있다. 이러한 기능을 이용하여, 시각 장애 사용자는 피사체들이 캡처 이미지 내의 어디에 있는지 그리고 이들이 서로에 대해 어떻게 배치되어 있는지를 결정할 수 있다. 이것은 시각 장애 사용자가 (예로서, 이미지 내의 피사체들의 구성 및 배열의 정신적 모델을 생성하기 위해) 이미지를 "가시화"하는 것을 가능하게 하며, 따라서 풍부한 이미지 검토 경험을 생성할 수 있다.

샘플 장치

도 1을 참조하면, 본 발명의 일 실시예를 구현할 수 있는 샘플 장치(100)의 블록도가 도시되어 있다. 도시된 바와 같이, 장치(100)는 정보 교환을 용이하게 하기 위한 버스(102) 및 버스(102)에 결합되어 명령어들을 실행하고 정보를 처리하기 위한 하나 이상의 프로세서(104)를 포함한다. 장치(100)는 버스(102)에 결합된 하나 이상의 저장 장치(106)(여기서 컴퓨터 판독 가능 저장 매체라고도 함)도 포함한다. 저장 장치(들)(106)는 실행 가능 프로그램들, 영구 데이터(예를 들어, 캡처 이미지, 캡처 이미지와 관련된 메타데이터 등), 프로그램 실행 동안 생성되는 임시 데이터(예로서, 사전 캡처 이미지 등) 및 컴퓨터 처리를 실행하는 데 필요한 임의의 다른 정보를 저장하는 데 사용될 수 있다.

저장 장치(들)(106)는 컴퓨터 처리를 실행하는 데 사용될 수 있는 임의의 그리고 모든 타입의 저장 장치들을 포함할 수 있다. 예를 들어, 저장 장치(들)(106)는 주 메모리(예로서, 랜덤 액세스 메모리(RAM) 또는 다른 동적 저장 장치), 캐시 메모리, 판독 전용 메모리(ROM), 영구 저장 장치(예로서, 하나 이상의 자기 디스크 또는 광 디스크, 플래시 저장 장치 등)는 물론, 다른 타입의 저장 장치도 포함할 수 있다. 다양한 저장 장치들(106)은 휘발성 또는 비휘발성일 수 있다. 컴퓨터 판독 가능 저장 매체의 일반적인 형태는 예를 들어 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 또는 임의의 다른 자기 매체, CD-ROM, DVD, 또는 임의의 다른 광학 저장 매체, 펀치 카드, 종이 테이프, 또는 구멍들의 패턴들을 갖는 임의의 다른 물리 매체, RAM, PROM, EPROM, 플래시-EPROM 또는 임의의 다른 타입의 플래시 메모리, 임의의 메모리 칩 또는 카트리지, 및 컴퓨터가 판독할 수 있는 임의의 다른 저장 매체를 포함한다.

도 1에 도시된 바와 같이, 저장 장치(들)(106)는 적어도 운영 체제(114) 및 하나 이상의 애플리케이션(112)을 포함하는 여러 세트의 실행 가능 명령어들을 저장한다. 프로세서(들)(102)는 운영 체제(114)를 실행하여, 다른 소프트웨어 세트들이 동작할 수 있는 플랫폼을 제공하며, 애플리케이션들(112) 중 하나 이상을 실행하여, 추가적인 특정 기능을 제공한다. 본 발명의 목적을 위해, 애플리케이션들(112)은 예를 들어 이미지 캡처 애플리케이션, 이미지 검토 애플리케이션은 물론, 다른 애플리케이션들도 포함할 수 있다. 일 실시예에서, 애플리케이션들(112) 및 운영 체제(114)는 본 명세서에서 설명되는 기술들을 구현하도록 협력한다. 즉, 기술들의 부분들이 애플리케이션들(112)에 의해 수행될 수 있으며, 부분들이 운영 체제(114)에 의해 수행될 수 있다. 그러나, 이것은 하나의 가능한 실시예일 뿐이라는 점에 유의해야 한다. 대안으로서, 기술들 전부가 운영 체제(114)에 의해 수행될 수 있다. 추가적인 대안으로서, 기술들 전부가 애플리케이션들(112) 중 하나 이상에 의해 수행될 수 있다. 모든 그러한 가능한 구현들은 본 발명의 범위 내에 있다.

도 1에 도시된 실시예에서, 프로세서(들)(104) 및 실행 가능 명령어들(112, 114)은 본 명세서에서 설명되는 기술들을 구현하는 이미지 프로세서를 형성하는 것으로 간주될 수 있다. 그러한 구현에서, 프로세서(들)(104)는 실행 가능 명령어들(112, 114)에 의해 기술들을 실행하도록 "구성"되는 것으로 간주될 수 있다. 이것은 이미지 프로세서를 위한 하나의 가능한 구현일 뿐이다. 대안으로서, 이미지 프로세서는 논리 요소들을 포함하는 요소들의 어레이를 갖는 장치(예로서, 프로그래밍 가능 논리 어레이)를 이용하여 구현된 하드웨어일 수 있으며, 요소들은 여기서 설명되는 기술들을 구현하도록 프로그래밍/구성된다. 추가적인 대안으로서, 이미지 프로세서는 여기서 설명되는 기술들을 구현하도록 형성/구성되는 논리 요소들을 포함하는 요소들을 갖는 주문형 집적 회로(ASIC)와 같은 다른 장치에 의해 구현된 하드웨어일 수 있다. 일반적으로, 이미지 프로세서는 여기서 설명되는 기술들을 구현하도록 형성/구성되는 논리 요소들을 포함하는 요소들을 갖는 임의 수의 장치를 이용하여 구현된 하드웨어일 수 있다. 이미지 프로세서의 이들 및 다른 구현들이 가능하다. 모든 그러한 구현들은 본 발명의 범위 내에 있다.

장치(100)는 버스(102)에 결합된 하나 이상의 사용자 인터페이스 컴포넌트(108)를 더 포함한다. 이러한 컴포넌트들(108)은 장치(100)가 사용자로부터 입력을 수신하고 사용자에게 출력을 제공하는 것을 가능하게 한다. 입력 측에서, 사용자 인터페이스 컴포넌트들(108)은 예를 들어 영숫자 키들을 갖는 키보드/키패드, 커서 제어 장치(예를 들어, 마우스, 트랙볼, 터치 패드 등), 사용자 입력을 수신할 수 있는 터치 감지 스크린, 오디오 입력을 수신하기 위한 마이크 등을 포함할 수 있다. 출력 측에서, 컴포넌트들(108)은 시각 및 오디오 콘텐츠를 제공하기 위한 그래픽 인터페이스(예로서, 그래픽 카드) 및 오디오 인터페이스(예로서, 사운드 카드)를 포함할 수 있다. 사용자 인터페이스 컴포넌트들(108)은 시각적 콘텐츠를 제공하기 위한 디스플레이(116)(일 실시예에서, 디스플레이(116)는 터치 감지 디스플레이임) 및 오디오 콘텐츠를 제공하기 위한 오디오 장치(118)(예로서, 하나 이상의 스피커)를 더 포함할 수 있다. 일 실시예에서, 프로세서(들)(104)에 의해 실행되는 운영 체제(114) 및 하나 이상의 애플리케이션(112)은 사용자로부터 입력을 수신하고 사용자에게 출력을 제공하기 위해 사용자 인터페이스 컴포넌트들(108)을 이용하고 이들과 상호작용하는 소프트웨어 사용자 인터페이스를 제공할 수 있다. 이러한 소프트웨어 사용자 인터페이스는 예를 들어 전술한 사용자 입력 장치들, 터치를 통해 호출될 수 있는 소프트 버튼들, 소프트 키보드 등 중 하나를 이용하여 사용자가 내비게이션할 수 있는 메뉴들을 제공할 수 있다. 이러한 소프트웨어 인터페이스는 터치 감지 디스플레이(116)와도 상호작용하여, 디스플레이(116)의 어느 위치(들)가 사용자에 의해 터치되고 있는지를 지시하는 정보를 수신하고, 이 정보를 운영 체제(114) 및 애플리케이션(들)(112)이 (예를 들어, 표시된 이미지의 어느 부분(들)이 터치되고 있는지, 어느 메뉴 아이템 또는 버튼이 호출되고 있는지 등을 결정하기 위해) 사용할 수 있는 입력으로 변환할 수 있다. 이들 및 다른 기능들이 운영 체제(114) 및 애플리케이션(들)(112)에 의해 제공되는 소프트웨어 사용자 인터페이스에 의해 수행될 수 있다.

일 실시예에서, 사용자 인터페이스 컴포넌트들(108)은 하나 이상의 이미지 캡처링 메커니즘(120)을 더 포함한다. 본 발명의 목적을 위해, 이미지 캡처링 메커니즘(120)은 시각 이미지를 캡처할 수 있는 임의의 메커니즘일 수 있다. 일 실시예에서, 이미지 캡처링 메커니즘(120)은 하나 이상의 렌즈 및 하나 이상의 렌즈에 의해 지향되는 광을 감지하기 위한 광 센서들의 어레이를 갖는 디지털 카메라의 형태를 취한다. (각각의 광 센서가 픽셀을 나타내는) 광 센서들의 어레이는 감지된 광을 지시하는 출력 신호들을 제공한다. 광 센서들의 어레이로부터의 출력 신호들은 캡처 이미지를 도출하는 데 사용될 수 있다. 본 발명의 목적을 위해, 이미지 캡처링 메커니즘(120)의 렌즈(들)는 정적이거나, 광학 줌을 구현하도록 기계적으로 이동가능할 수 있다.

전술한 컴포넌트들에 더하여, 장치(100)는 버스(102)에 결합된 하나 이상의 통신 인터페이스(110)를 더 포함할 수 있다. 이러한 인터페이스들(110)은 장치(100)가 다른 컴포넌트들과 통신하는 것을 가능하게 한다. 통신 인터페이스들(110)은 예를 들어 장치(100)로 하여금 로컬 네트워크로 메시지들을 전송하고 그로부터 메시지들을 수신하는 것을 가능하게 하기 위한 (유선 또는 무선) 네트워크 인터페이스를 포함할 수 있다. 통신 인터페이스들(110)은 장치로 하여금 로컬 네트워크를 이용하지 않고서 인터넷에 액세스하는 것을 가능하게 하기 위한 3G 인터페이스도 포함할 수 있다. 통신 인터페이스들(110)은 장치(100)로 하여금 전화 통신을 수행하는 것을 가능하게 하기 위한 전화 네트워크 인터페이스를 더 포함할 수 있다. 통신 인터페이스들(110)은 무선 헤드셋, 이어피스 등과 같은 근처의 장치들과 무선 통신하기 위한 무선 인터페이스(예로서, 블루투스)를 더 포함할 수 있다. 통신 인터페이스들(110)은 한 세트의 유선 헤드폰, 헤드셋, 이어폰 등과 인터페이스하기 위한 잭을 더 포함할 수 있다. 이들 및 다른 인터페이스들이 장치(100) 내에 포함될 수 있다.

샘플 동작

이제, 위의 장치 설명을 염두에 두고, 도 1-5를 참조하여, 본 발명의 일 실시예에 따른 장치(100)의 동작이 더 상세히 설명될 것이다. 아래의 설명에서, 동작들은 장치(100)에 의해 수행되는 것으로 설명될 것이다. 일 실시예에서 장치(100)는 프로세서(들)(104)로 하여금 운영 체제(114) 및 애플리케이션들(112) 중 하나 이상을 실행하게 함으로써 그리고 프로세서(들)(104)로 하여금 다양한 다른 컴포넌트들(예로서, 디스플레이(116), 오디오 장치(118), 이미지 캡처링 메커니즘(120) 등)과 상호작용하게 함으로써 이러한 동작들을 수행한다는 것을 이해해야 한다.

사전 이미지 캡처 기능

도 2를 참조하면, 본 발명의 일 실시예에 따른, 장치(100)에 의해 수행되는 사전 이미지 캡처 동작들을 나타내는 흐름도가 도시되어 있다. 이러한 동작들을 호출하기 위해, 시각 장애 사용자는 장치(100)와 상호작용하여, 장치(100)의 오디오 메시징 능력을 이용하기 위한 소정의 사용자 설정들을 설정할 수 있다. 이어서, 사용자는 이러한 오디오 메시징 능력을 이용하는 애플리케이션(112)(예로서, 이미지 캡처 애플리케이션)을 호출할 수 있다. 이것이 행해진 후, 장치(100)는 도 2에 도시된 동작들을 수행할 것이다.

장치(100)는 사용자로 하여금 사용자가 캡처하기를 원하는 장면의 일반적인 방향으로 이미지 캡처링 메커니즘(120)을 지향시키는 것을 가능하게 한다. 이것이 행해지면, 장치(100)는 이미지 캡처링 메커니즘(120)을 이용하여 장면의 이미지를 사전 캡처한다(블록 204). 이러한 사전 캡처 이미지는 터치 감지 디스플레이(116) 상에 표시된다. 일 실시예에서, 장치(100)는 장면의 이미지를 자동으로 그리고 주기적으로 사전 캡처한다. 대안으로서, 장치(100)는 이미지를 사전 캡처하기 전에 소정의 사용자 입력(예로서, 소정 제어의 터치 또는 소정 제스처 또는 움직임의 수행)을 기다릴 수 있다. 일 실시예에서, 사전 캡처 이미지는 영구적으로 저장되는 것이 아니라, 임시로 저장되고, 사용자가 그가 캡처하기를 원하는 이미지를 캡처하도록 이미지 캡처링 메커니즘(120)을 적절히 배치/조정하는 것을 돕는 목적을 위해서만 사용된다. 간소화 및 편의를 위해, 사전 캡처 이미지는 이후에 프레임으로 지칭될 것이다.

프레임 분석

프레임이 캡처된 후, 프레임은 장치(100)에 의해 분석된다(블록 208). 본 발명의 목적을 위해, 프레임에 대해 임의 타입의 이미지 분석이 수행될 수 있다. 아래의 설명은 단지 몇 가지 예를 제공한다.

프레임에 대해 수행될 수 있는 한 가지 타입의 분석은 얼굴 검출이다. 얼굴 검출 동안, 장치(100)는 프레임의 픽셀들을 처리하여, 얼굴의 존재를 제안하는 소정의 픽셀 패턴들을 찾는다. 예를 들어, 장치(100)는 눈, 코 및 입을 닮은 픽셀 패턴들을 찾고, 이러한 패턴들이 얼굴을 형성하는 방식으로 서로에 대해 배치되어 있는지를 결정할 수 있다(주: 더 낮은 레벨에서, 장치(100)는 눈, 코 또는 입과 같은 충분한 얼굴 특징으로서 사용자에 의해 인식되지 못할 수 있는 픽셀 패턴들을 찾을 수 있다). 소정의 픽셀 패턴들이 발견되면, 얼굴이 검출될 수 있다. 본 발명의 목적을 위해, 임의의 얼굴 검출 방법이 적용될 수 있다. 아래에 목록화된 문헌들은 이용될 수 있는 얼굴 검출 기술들의 전부가 아닌 일부를 설명한다. 이들 문서 전부는 본 명세서에 참고로 포함된다.

일 실시예에서, 장치(100)는 전체 프레임에 대해 얼굴 검출을 수행하여, 프레임 내의 얼굴들 모두를 검출한다. 따라서, 얼굴 검출 프로세스의 종료에 의해, 장치(100)는 프레임 내에 얼마나 많은 얼굴이 있는지에 대한 카운트를 가질 것이다.

일 실시예에서, 얼굴 검출 프로세스의 일부로서, 장치(100)는 어떤 픽셀들이 각각의 얼굴을 구성하는지를 결정한다. 이어서, 장치(100)는 어떤 픽셀들이 어떤 이미지와 관련되는지를 지시하는 픽셀 정보를 저장한다. 일 실시예에서, 저장할 필요가 있는 픽셀 정보의 양을 최소화하기 위해, 장치(100)는 각각의 얼굴을 직사각 박스로서 근사화한다. 이러한 방식으로, 얼굴과 관련된 픽셀들이 x 및 y 픽셀 좌표들에 대한 한 세트의 범위들만을 이용하여 표현될 수 있다. 예를 들어, 얼굴이 소정 픽셀 세트를 포함하는 것으로 가정한다. 세트 내의 가장 좌측의 픽셀이 x₁의 x 좌표를 갖고, 세트 내의 가장 우측의 픽셀이 x₂의 x 좌표를 갖고, 세트 내의 가장 상측의 픽셀이 y₁의 y 좌표를 갖고, 세트 내의 가장 하측의 픽셀이 y₂의 y 좌표를 갖는 것으로 더 가정한다. 그러한 경우에, 얼굴은 x₁ 내지 x₂의 x 좌표 및 y₁ 내지 y₂의 y 좌표를 갖는 모든 픽셀들을 포함하는 것으로 표현될 수 있다. 이것은 얼굴을 구성하는 정확한 픽셀들을 캡처하지 않지만, 충분히 가까우며, 상당한 저장 장치 절약을 제공한다. 이러한 픽셀 정보를 이용하여, 장치(100)는 얼마나 많은 얼굴이 프레임 내에 있는지를 알 뿐만 아니라, 얼굴들이 프레임 내의 어느 곳에 위치하는지도 안다.

프레임에 대해 수행될 수 있는 다른 타입의 분석은 얼굴 인식이다. 얼굴 인식을 이용하여, 프레임에서 검출된 각각의 얼굴을 분석하여, 얼굴이 장치(100)에 의해 이미 식별된 사람에 속하는지를 결정한다. 얼굴 인식은 각각의 검출된 얼굴에 대해 일부 얼굴 특성 값들을 도출하는 것을 포함할 수 있다. 이어서, 이러한 얼굴 특성 값들을 데이터베이스 내의 공지된, 식별된 얼굴들의 얼굴 특성 값들과 비교하여, 검출된 얼굴이 식별된 얼굴에 충분히 근사한지를 결정함으로써, 검출된 얼굴이 식별된 얼굴과 동일한 사람에 속하는 것으로 결론지을 수 있다. 검출된 얼굴이 식별된 얼굴과 동일한 사람에 속한다는 결론이 이루어지는 경우, 식별된 얼굴과 관련된 식별자 또는 이름이 검출된 얼굴과 관련될 수 있다. 일 실시예에서, 얼굴 인식은 프레임 내의 검출된 얼굴들 전부에 대해 적용된다. 따라서, 얼굴 인식 프로세스의 종료시에, 모든 검출된 얼굴들이 (이들이 장치(100)에 의해 이미 식별된 사람에 속하는 경우) 식별될 수 있다.

위의 설명은 얼굴 인식 프로세스 동안 무엇이 수행될 수 있는지에 대한 하이 레벨 설명을 제공할 뿐이다. 본 발명의 목적을 위해, 임의의 얼굴 인식 방법이 적용될 수 있다. 아래의 문헌들은 이용될 수 있는 얼굴 인식 기술들의 전부가 아닌 일부를 설명한다. 이들 문헌 모두는 본 명세서에 참고로 포함된다.

프레임에 대해 수행될 수 있는 또 다른 타입의 분석은 위치 분석이다. 위치 분석을 이용하여, 장치(100)는 프레임에서 검출된 얼굴들을 처리하여, 얼굴들을 구성하는 픽셀들이 프레임의 에지들(예로서, 좌, 우, 상, 하) 중 하나 이상에 너무 가까운지를 결정한다. 일 실시예에서, 이러한 결정은 얼굴들과 관련된 픽셀들의 x 및 y 좌표들을 분석함으로써 행해질 수 있다. 예를 들어, 임의의 얼굴들이 프레임의 좌측 에지에 너무 가까운지를 결정하기 위하여, 장치(100)는 프레임 내의 가장 좌측 얼굴 및 그 얼굴을 구성하는 픽셀들의 가장 좌측 x 좌표를 선택할 수 있다. 이어서, 장치(100)는 (0의 x 좌표를 갖는) 프레임의 좌측 에지와 얼굴의 가장 좌측 x 좌표 사이의 거리가 소정 임계치 아래인지를 결정할 수 있다. 이 임계치는 사용자에 의해 또는 장치(100)에 의해 설정될 수 있다. 그러한 경우, 가장 좌측 얼굴은 프레임의 좌측 에지에 너무 가깝다. 유사하게, 임의의 얼굴들이 프레임의 우측 에지에 너무 가까운지를 결정하기 위하여, 장치(100)는 프레임 내의 가장 우측 얼굴 및 그 얼굴을 구성하는 픽셀들의 가장 우측 x 좌표를 선택할 수 있다. 이어서, 장치(100)는 (x_max의 x 좌표를 갖는) 프레임의 우측 에지와 가장 우측 x 좌표 사이의 거리가 소정 임계치 아래인지를 결정할 수 있다. 그러한 경우, 가장 우측 얼굴은 프레임의 우측 에지에 너무 가깝다.

임의의 얼굴들이 프레임의 상측 에지에 너무 가까운지를 결정하기 위하여, 장치(100)는 프레임 내의 가장 상측 얼굴 및 그 얼굴을 구성하는 픽셀들의 가장 상측 y 좌표를 선택할 수 있다. 이어서, 장치(100)는 (0의 y 좌표를 갖는) 프레임의 상측 에지와 가장 상측 y 좌표 사이의 거리가 특정 임계치(이 임계치는 x 좌표들에 대해 사용된 것과 동일하거나 상이할 수 있음) 아래인지를 결정할 수 있다. 그러한 경우, 가장 상측 얼굴은 프레임의 상측 에지에 너무 가깝다. 마지막으로, 임의의 얼굴들이 프레임의 하측 에지에 너무 가까운지를 결정하기 위하여, 장치(100)는 프레임 내의 가장 하측 얼굴 및 그 얼굴을 구성하는 픽셀들의 가장 하측 y 좌표를 선택할 수 있다. 이어서, 장치(100)는 (y_max의 y 좌표를 갖는) 프레임의 하측 에지와 가장 하측 y 좌표 사이의 거리가 특정 임계치 아래인지를 결정할 수 있다. 그러한 경우, 가장 하측 얼굴은 프레임의 하측 에지에 너무 가깝다. 어떠한 얼굴도 프레임의 임의의 에지에 너무 가깝지 않은 경우, 장치(100)는 프레임 내의 얼굴들이 중앙에 위치하는 것으로 결론지을 수 있다.

일부 예들에서는 얼굴이 다수의 에지에 너무 가까울 수 있다. 예를 들어, 얼굴이 상측 에지는 물론, 좌측 에지에 너무 가까울 수 있다. 그러한 경우, 장치(100)는 얼굴이 양 에지에 너무 가까운 것으로 결정할 수 있다. 아래의 리스트는 장치(100)가 본 발명의 일 실시예에 따라 얼굴에 대해 도달할 수 있는 9개의 가능한 결정을 설명한다(주: 다른 결정들이 가능하며, 이들은 본 발명의 범위 내에 있다). 구체적으로, 장치(100)는 얼굴이

(a) 프레임의 좌상 에지에 가깝고(즉, 얼굴이 프레임의 상측 에지 및 좌측 에지 양쪽에 너무 가깝고);

(b) 프레임의 상측 에지에 가깝고(즉, 얼굴이 프레임의 상측 에지에만 너무 가깝고);

(c) 프레임의 우상 에지에 가깝고(즉, 얼굴이 프레임의 상측 에지 및 우측 에지 양쪽에 너무 가깝고);

(d) 프레임의 좌측 에지에 가깝고(즉, 얼굴이 프레임의 좌측 에지에만 너무 가깝고);

(e) 중앙에 위치하고;

(f) 프레임의 우측 에지에 가깝고(즉, 얼굴이 프레임의 우측 에지에만 너무 가깝고);

(g) 프레임의 좌하 에지에 가깝고(즉, 얼굴이 프레임의 하측 에지 및 좌측 에지 양쪽에 너무 가깝고);

(h) 프레임의 하측 에지에 가깝고(즉, 얼굴이 프레임의 하측 에지에만 너무 가깝고);

(i) 프레임의 우하 에지에 가까운(즉, 얼굴이 프레임의 하측 에지 및 우측 에지 양쪽에 너무 가까운) 것으로 결정할 수 있다.

이러한 9개의 가능성은 도 5에 도시된 바와 같이 9개의 영역으로 표현될 수 있다. 이러한 영역들(A 내지 I)은 프레임의 다양한 영역들에 대응한다. 일 실시예에서, 얼굴의 임의 부분이 프레임의 영역 A 내에 있는 경우, 장치(100)는 얼굴이 프레임의 좌상 에지에 가까운 것으로 결론짓는다. 얼굴의 임의 부분이 프레임의 영역 C 내에 있는 경우, 장치(100)는 얼굴이 프레임의 우상 에지에 가까운 것으로 결론짓는다. 얼굴의 임의 부분이 프레임의 영역 G 내에 있는 경우, 장치(100)는 얼굴이 프레임의 좌하 에지에 가까운 것으로 결론짓고, 얼굴의 임의 부분이 프레임의 영역 I 내에 있는 경우, 장치(100)는 얼굴이 프레임의 우하 에지에 가까운 것으로 결론짓는다.

얼굴의 일부가 영역 B 내에 있으나, 얼굴의 어떤 부분도 영역 A 또는 C 내에 있지 않은 경우, 장치(100)는 얼굴이 프레임의 상측 에지에 가까운 것으로 결론짓는다. 얼굴의 일부가 영역 D 내에 있으나, 얼굴의 어떤 부분도 영역 A 또는 G 내에 있지 않은 경우, 장치(100)는 얼굴이 프레임의 좌측 에지에 가까운 것으로 결론짓는다. 얼굴의 일부가 영역 F 내에 있으나, 얼굴의 어떤 부분도 영역 C 또는 I 내에 있지 않은 경우, 장치(100)는 얼굴이 프레임의 우측 에지에 가까운 것으로 결론지으며, 얼굴의 일부가 영역 H 내에 있으나, 얼굴의 어떤 부분도 영역 G 또는 I 내에 있지 않은 경우, 장치(100)는 얼굴이 프레임의 하측 에지에 가까운 것으로 결론짓는다. 모든 얼굴들이 영역 E 내에만 있는 경우, 장치(100)는 얼굴들이 중앙에 있는 것으로 결론짓는다.

도 5에 도시된 도면은 이미지 캡처링 메커니즘(120)이 가로 배향(landscape orientation)으로 유지되고 있는 것으로(따라서, 프레임이 가로 배향으로 캡처되는 것으로) 가정한다. 프레임이 세로 배향(portrait orientation)으로 대신 캡처되는 경우, 동일 영역들이 여전히 사용될 수 있지만, 이들의 라벨들은 상이할 것이다. 예를 들어, 이미지 캡처링 메커니즘(120)(따라서, 프레임)이 세로 배향을 생성하기 위해 반시계 방향으로 90도 회전되는 것으로 가정한다. 그러한 경우에, 영역 C는 프레임의 좌상 에지일 것이고, 영역 I는 우상 에지일 것이고, 영역 A는 좌하 에지일 것이고, 영역 G는 우하 에지일 것이다. 일 실시예에서, 장치(100)는 이미지 캡처링 장치(120)의 현재 배향을 검출하고, 이에 따라 영역 A-I에 제공된 라벨들을 조정한다. 따라서, 이미지 캡처링 메커니즘(120)의 배향에 관계없이, 장치(100)는 사용자가 좌, 우, 상, 하 등일 것으로 예상하는 것과 적절히 상관되는 방식으로 영역들을 라벨링할 것이다.

프레임에 대해 수행될 수 있는 또 다른 타입의 분석은 사이징 분석이다. 사이징 분석을 이용하여, 장치(100)는 프레임에서 검출된 얼굴들 중 하나 이상의 얼굴의 크기를 분석하고, 크기가 소정의 하한 임계치보다 작은지 또는 소정의 상한 임계치보다 큰지를 결정한다(이러한 임계치들은 사용자에 의해 지정되거나, 장치(100)에 의해 설정될 수 있다). 그러한 경우, 장치(100)는 하나 이상의 얼굴이 너무 작거나 너무 클 수 있다는 경고를 사용자에게 전송하는 것이 필요한 것으로 결론지을 수 있다. 사이징 분석의 목적을 위해, 장치(100)는 검출된 얼굴들과 관련된 임의의 하나 이상의 사이징 메트릭(metric)을 분석할 수 있다. 예를 들어, 장치(100)는 사이징 분석을 얼굴의 폭, 얼굴의 길이, 얼굴의 면적 등에 기초할 수 있다.

일 실시예에서, 장치(100)는 프레임 내의 가장 큰 얼굴을 이용하여 사이징 분석을 수행한다. 가장 큰 얼굴의 크기가 소정의 하한 임계치 아래인 경우, 장치(100)는 프레임 내의 얼굴들이 너무 작은 것으로 결론지을 수 있다. 가장 큰 얼굴의 크기가 소정의 상한 임계치 위인 경우, 장치는 프레임 내의 얼굴들이 너무 큰 것으로 결론지을 수 있다. 사이징 분석을 가장 큰 얼굴에 기초하는 것은, 프레임 내의 하나의 얼굴이 프레임 내의 다른 얼굴들보다 이미지 캡처링 메커니즘(120)에 훨씬 더 가까울 수 있으며, 따라서 다른 얼굴들보다 훨씬 더 큰 상황들을 설명한다. 그러한 경우, 프레임이 하한 임계치보다 작은 많은 얼굴을 포함할 수 있는 경우에도, 장치(100)가 프레임이 너무 작은 얼굴들을 포함하는 것으로 결론짓는 것은 바람직하지 않을 것이다. 사실상, (아마도 이미지의 주요 피사체인) 가장 큰 얼굴의 크기는 아주 적절할 수 있다.

이들 및 다른 타입의 분석이 프레임에 대해 수행될 수 있다. 일 실시예에서, 프레임이 분석된 후, 프레임에 관한 한 세트의 메타데이터가 저장된다. 이 메타데이터는 예를 들어 프레임에서 얼마나 많은 얼굴이 검출되었는지를 지시하는 정보, 얼굴들에 할당된 라벨들 또는 이름들(예로서, 얼굴 1, 자카리 등), 각각의 얼굴을 구성하는 픽셀들, 얼굴들 각각에 대한 특성 정보(예로서, 크기, 컬러, 얼굴 특성 값 등), 얼굴들에 관한 위치 정보(예로서, 얼굴들이 중앙에 있는지, 에지에 너무 가까운지 등), 얼굴들에 대한 사이징 정보(예로서, 얼굴들이 너무 작거나 너무 클 수 있는지) 등을 포함할 수 있다. 후속 섹션들에서 상세히 설명되는 바와 같이, 이러한 메타데이터는 후속 처리를 실행하는 데 사용될 것이다.

오디오 메시지들

프레임이 분석된 후, 장치(100)는 하나 이상의 오디오 메시지를 오디오 장치(118)를 통해 제공하여 사용자에게 분석의 결과들을 전달할 수 있다(블록 212). 이러한 오디오 메시지들은 사전 기록된 메시지들일 수 있거나, 텍스트 대 음성 기술들을 이용하여 자동으로 생성될 수 있다.

오디오 메시지들은 프레임에서 검출된 얼굴들의 수를 알리는 오디오 메시지를 포함할 수 있다. 예를 들어, 2개의 얼굴이 검출되는 경우, 장치(100)는 "2개의 얼굴"이라고 말하는 오디오 메시지를 제공할 수 있다. 얼굴 인식 프로세스 동안에 얼굴들이 식별된 경우, 장치(100)는 추가적인, 더 구체적인 오디오 메시지들을 제공할 수 있다. 예를 들어, 프레임 내의 2개의 얼굴이 자카리 및 에밀리에 속하는 경우, 장치(100)는 "자카리", "에밀리"라고 말하는 추가적인 오디오 메시지들을 제공할 수 있다. 일 실시예에서, 장치(100)는 이전 프레임으로부터의 변화가 존재하는 경우에만 이러한 오디오 메시지들을 제공할 것이다(이전 프레임으로부터의 변화가 존재하는지의 여부는 현재 프레임으로부터의 메타데이터와 이전 프레임으로부터의 메타데이터를 비교함으로써 결정될 수 있다). 이전 프레임이 그 안에 자카리 및 에밀리만을 갖고, 따라서 오디오 메시지들 "2개의 얼굴", "자카리", "에밀리"가 이전에 제공되었을 것이라는 것을 의미하는 경우, 장치(100)는 이러한 메시지들을 반복하지 않을 것이다. 그러나, 이제 현재 프레임이 상이한 수 또는 상이한 세트의 얼굴 식별자들, 예를 들어 안나(Anna)에 속하는 제3 얼굴의 추가를 포함하는 경우, 장치는 갱신된 오디오 메시지들(예로서, "3개의 얼굴", "자카리", "에밀리", "안나")을 제공할 것이다. 일부 예들에서, 프레임 내의 얼굴들의 일부는 인식될 수 있는 반면, 다른 얼굴들은 인식되지 않는다. 그러한 경우, 장치(100)는 인식된 얼굴들의 이름들을 알리고, 하나 이상의 다른 얼굴에 명칭(designation)(예로서, "4개의 얼굴", "자카리", "에밀리", "미지의 얼굴 1", "미지의 얼굴 2")을 할당할 수 있다.

장치(100)는 또한 프레임 내의 얼굴들의 위치에 관한 오디오 메시지를 제공할 수 있다. 예를 들어, 얼굴이 프레임의 좌측 에지에 너무 가까운 경우, 장치(100)는 "좌측 에지 근처의 얼굴"이라고 말하는 오디오 메시지를 제공할 수 있다. 얼굴이 프레임의 좌측 에지 및 상측 에지 양쪽에 너무 가까운 경우, 장치(100)는 "좌상 에지 근처의 얼굴"이라고 말하는 오디오 메시지를 제공할 수 있다. 얼굴이 프레임의 상측 에지, 우측 에지, 하측 에지, 우상 에지, 좌하 에지 또는 우하 에지에 너무 가까운 경우에 유사한 오디오 메시지들이 제공될 수 있다(프레임의 다양한 영역들에 대해 도 5를 참조한다). 얼굴들이 프레임 내의 중앙에 있는 경우, 장치(100)는 "중앙에 있는 얼굴들"이라고 말하는 오디오 메시지를 제공할 수 있다(또는 배치 메시지를 전혀 제공하지 않을 수 있다).

장치(100)는 프레임 내의 얼굴들의 크기들에 관한 오디오 메시지를 더 제공할 수 있다. 예를 들어, 얼굴들이 너무 작은 경우, 장치(100)는 "얼굴들이 너무 작다"라고 말하는 오디오 메시지를 제공할 수 있다. 한편, 얼굴이 거의 전체 프레임을 채우는 경우, 장치는 "얼굴이 전체 폭이다"라고 말하는 오디오 메시지를 제공할 수 있다. 얼굴들이 너무 작지도 너무 크지도 않은 경우, 장치(100)는 사이징 메시지를 전혀 제공하지 않을 수 있다(또는 옵션으로서 "얼굴들이 적절히 사이징되었다"라고 말하는 오디오 메시지를 제공할 수 있다).

이들 및 다른 오디오 메시지들이 사용자에게 제공될 수 있다. 이러한 오디오 메시지들에 응답하여, 사용자는 이미지 캡처링 메커니즘(120)의 배치를 변경하고, 피사체들에 더 가깝게 또는 그들로부터 더 멀리 이동하고, 이미지 캡처링 메커니즘(120)의 줌 팩터를 조정하는 것 등을 행할 수 있다. 예를 들어, 사용자가 3개의 피사체를 캡처하는 것을 의도하였지만, 2개의 얼굴만이 현재 검출된 경우, 사용자는 이미지 캡처링 메커니즘(120)을 재배치하여 3개의 피사체 모두를 캡처할 수 있다. 또한, 얼굴이 프레임의 에지에 너무 가까운 경우, 사용자는 이미지 캡처링 메커니즘(120)을 이동시켜 피사체들을 더 양호하게 중앙에 배치할 수 있다. 더구나, 얼굴들이 너무 작거나 너무 큰 경우, 사용자는 피사체들에 더 가까이 또는 그들로부터 더 멀리 이동하거나, 이미지 캡처링 메커니즘(120)의 줌 팩터를 조정할 수 있다. 이들 및 다른 조정들이 사용자에 의해 행해질 수 있다.

사용자 입력에 대한 응답

조정 프로세스의 일부로서, 사용자는 다양한 얼굴들이 프레임 내의 어느 곳에 위치하는지를 알기를 원할 수 있다. 이와 관련하여 사용자를 돕기 위해, 장치(100)는 사용자로 하여금 프레임이 표시되고 있는 터치 감지 디스플레이(116)를 터치하는 것을 가능하게 한다. 장치(100)는 이러한 사용자 입력을 체크하여, 사용자가 현재 디스플레이(116)의 일부를 터치하고 있는지를 결정한다(블록 216). 그러한 사용자 입력이 검출되지 않는 경우, 장치(100)는 블록 224로 진행한다. 그러나, 사용자가 현재 디스플레이(116)의 일부를 터치하고 있다는 것을 지시하는 사용자 입력이 검출되는 경우, 장치(100)는 사용자 입력에 응답하여 적절한 오디오 메시지를 제공하기 시작한다(블록 220). 일 실시예에서, 장치(100)는 현재 터치 감지 디스플레이(116)의 어느 부분이 터치되고 있는지를 결정함으로써 이를 행한다. 장치(100)는 이것을 프레임의 하나 이상의 픽셀과 상관시킨다. 이어서, 장치(100)는 이러한 픽셀들이 프레임 내의 얼굴들 중 하나를 구성하는 픽셀들에 대응하는지를 결정한다. 이러한 결정에 기초하여, 장치(100)는 사용자에게 적절한 오디오 메시지를 제공한다. 예를 들어, 사용자에 의해 터치되고 있는 부분이 프레임 내의 어떠한 얼굴에도 대응하지 않는 경우, 장치(100)는 삑 소리를 제공할 수 있다(또는 사용자에 의하여 선택된 소정의 다른 소리 또는 "아무 것도 없음"을 의미하는 소리로서 적절히 인정되는 소리를 제공하거나 소리를 전혀 제공하지 않을 수 있다). 한편, 터치된 부분이 프레임 내의 얼굴에 대응하는 경우, 장치는 그것을 지시하는 오디오 메시지를 제공할 수 있다. 예컨대, 오디오 메시지는 "얼굴 1"이라고 말할 수 있다. 얼굴이 얼굴 인식 프로세스 동안 식별된 경우, 오디오 메시지는 더 구체적일 수 있다. 예컨대, 터치된 부분이 자카리의 얼굴에 대응하는 경우, 오디오 메시지는 "자카리"라고 말할 수 있다. 이러한 기능을 이용하여, 사용자는 얼굴들이 프레임 내의 어느 곳에 있는지 그리고 이들이 서로에 대해 어떻게 배치되어 있는지를 결정할 수 있다. 이것은 사용자가 이미지를 영구적으로 캡처하기 전에 (예로서, 피사체들의 구성 및 배열의 정신적 모델을 생성하기 위해) 프레임을 "가시화"하는 것을 가능하게 한다.

일 실시예에서, 블록 220에서 오디오 메시지를 제공한 후, 장치는 블록 216으로 루프 백(loop back)하여, 사용자가 여전히 디스플레이(116)를 터치하고 있는지를 결정한다. 그러한 경우, 장치(100)는 블록 220으로 진행하여 사용자에게 다른 오디오 메시지를 제공할 수 있다. 일 실시예에서, 장치(100)는 사용자 입력이 변경된 경우에만(예를 들어, 사용자가 디스플레이(116)의 다른 부분을 터치하고 있는 경우) 다른 오디오 메시지를 제공할 것이다. 이러한 루프를 이용하여, 사용자는 디스플레이(116)를 터치하고, 그의 손가락을 프레임의 다양한 부분들로 이동시키고, 그가 터치하는 다양한 부분들에 대한 오디오 피드백을 수신할 수 있다. 일 실시예에서, 장치(100)는 블록 224로 진행하기 전에 이 루프를 소정 횟수 또는 소정 기간 동안 수행한다.

블록 224에서, 장치(100)는 사용자가 이미지 캡처링 메커니즘(120)이 향하고 있는 장면의 영구 이미지를 캡처하기를 원한다는 것을 지시하는 사용자 입력(예로서, 제어의 터치 또는 움직임 또는 제스처 수행)을 체크한다. 그러한 사용자 입력이 검출되지 않는 경우, 장치(100)는 블록 204로 루프 백하여, 전술한 동작들을 반복한다. 따라서, 프레임을 사전 캡처하고, 프레임을 분석하고, 사용자에게 오디오 피드백을 제공하는 프로세스는 반복 프로세스이다. 각각의 반복은 사용자가 이미지 캡처링 메커니즘(120)을 재배치 및/또는 조정하고, 피사체들에 더 가까이 또는 그들로부터 더 멀리 이동하는 것 등을 돕기 위해 갱신된 정보를 제공한다. 이러한 반복 프로세스를 통해 수신된 오디오 메시지들에 응답하여 조정들을 행함으로써, 사용자는 그가 원하는 정확한 이미지를 얻을 수 있다.

프레임 추적

위에서 명확해진 바와 같이, 사전 이미지 캡처 조정 프로세스는 다수의 프레임의 캡처 및 분석을 포함한다. 사용자에 대한 혼란을 방지하기 위해, 하나의 프레임 내의 얼굴에 대해 사용되는 명칭은 다른 프레임들에서 동일하게 유지되어야 한다. 예를 들어, 얼굴이 하나의 프레임에서 "얼굴 1"로 지칭되는 경우, 그 얼굴은 그 얼굴이 후속 프레임들에서 크게 상이한 위치들로 이동하는 경우에도 후속 프레임들에서 "얼굴 1"로 또한 지칭되어야 한다. 일 실시예에서, 이러한 프레임 대 프레임 일관성을 유지하기 위하여, 장치(100)는 프레임 추적을 구현한다. 프레임 추적을 이용하여, 장치는 프레임별로 각각의 얼굴을 추적하려고 시도한다. 더 구체적으로, 프레임 내의 각각의 얼굴에 대해, 장치(100)는 그 얼굴을 바로 이전 프레임 내의 얼굴과 연관시키려고 시도한다. 이것은 현재 프레임으로부터의 메타데이터 및 바로 이전 프레임으로부터의 메타데이터를 이용하여 행해질 수 있다.

이러한 연관은 다양한 팩터들에 기초하여 행해질 수 있다. 예를 들어, 장치(100)는 얼굴들이 유사한 크기, 형상, 컬러 또는 다른 얼굴 특성들을 갖는다는 사실에 기초하여 하나의 프레임 내의 얼굴과 이전 프레임 내의 얼굴을 연관시킬 수 있다. 얼굴 키포인트들도 (예를 들어, 어느 얼굴이 얼굴 1인지를 그 얼굴이 움직이고 있는 경우에도 추적하기 위해) 얼굴 움직임을 추적하고 프레임들에 걸친 얼굴 연관성을 유지하는 데 사용될 수 있다. 키포인트들은 목표물(예로서, 얼굴)의 모션을 추적하는 데 사용하기 위한 양호한 포인트들로서 선택될 수 있는 이미지 특징들이다. 연관은 또한 2개의 프레임 내의 얼굴들의 상대적 위치들에 기초하여 행해질 수 있다. 얼굴이 프레임마다 그렇게 많이 움직일 가능성이 크지 않을 것이라는 가정하에, 장치(100)는 하나의 프레임 내의 얼굴을 비교적 가까운 위치에 있는 이전 프레임 내의 얼굴과 연관시킬 수 있다. 현재 프레임 내의 얼굴과 이전 프레임 내의 얼굴 사이에 연관이 행해지는 경우, 이전 프레임 내의 얼굴에 대해 사용되는 명칭은 현재 프레임 내의 연관된 얼굴에 대해 사용될 것이다. 따라서, 얼굴 명칭은 일관성을 촉진하기 위해 프레임에서 프레임으로 전달된다.

얼굴 추적을 설명하기 위해, 4개의 프레임을 도시하는 도 3의 예를 참조한다. 프레임 1에서, 더 큰 "얼굴 1"은 좌측이 있고, 더 작은 "얼굴 2"는 우측에 있다. 프레임 2에서, 더 작은 얼굴은 약간 위로 그리고 좌측으로 움직인 반면, 더 큰 얼굴은 약간 아래로 그리고 우측으로 움직였다. 얼굴들의 크기들 및 프레임 1 및 2 사이의 얼굴들의 상대적 배치를 포함할 수 있는 다양한 팩터들에 기초하여, 장치(100)는 더 큰 얼굴을 "얼굴 1"로서 그리고 더 작은 얼굴을 "얼굴 2"로서 계속 지칭한다. 프레임 3에서, 더 작은 얼굴은 좌측으로 더 멀리 이동한 반면, 더 큰 얼굴은 우측으로 더 멀리 이동하였다. 다시, 얼굴들의 크기들 및 프레임 2 및 3 사이의 얼굴들의 상대적 배치를 포함할 수 있는 다양한 팩터들에 기초하여, 장치(100)는 더 큰 얼굴을 "얼굴 1"로서 그리고 더 작은 얼굴을 "얼굴 2"로서 계속 지칭한다. 마지막으로, 프레임 4에서, 더 작은 얼굴은 약간 아래로 이동한 반면, 더 큰 얼굴은 약간 위로 이동하였다. 다시, 얼굴들의 크기들 및 프레임 3 및 4 사이의 얼굴들의 상대적 배치를 포함할 수 있는 다양한 팩터들에 기초하여, 장치(100)는 더 큰 얼굴을 "얼굴 1"로서 그리고 더 작은 얼굴을 "얼굴 2"로서 계속 지칭한다. 따라서, 2개의 얼굴이 완전히 바뀐 위치들을 갖는 경우에도, 프레임 추적으로 인해 장치(100)는 알아서 계속 더 큰 얼굴을 "얼굴 1"로서 그리고 더 작은 얼굴을 "얼굴 2"로서 지칭한다. 이러한 기능은 사용자가 장치(100)에 의해 제공되는 오디오 메시지들을 들을 때 사용자의 혼란을 방지하는 것을 돕는다.

이미지 캡처

소정 시점에서, 사용자는 프레임 내에 존재하는 이미지에 만족할 것이다. 그 시점에서, 사용자는 사용자가 장면의 영구 이미지를 캡처하기를 원한다는 것을 지시하는 소정의 입력(예로서, 제어의 터치 또는 움직임 또는 제스처의 수행)을 제공한다. 이러한 입력은 블록 224에서 장치(100)에 의해 검출되며, 이에 응답하여 장치는 (이미지 캡처링 메커니즘(120)을 이용하여) 이미지를 캡처하고(블록 228), 이미지를 저장 장치(들)(106) 내에 영구 저장한다.

일 실시예에서, 영구 이미지가 캡처되자마자, 장치(100)는 이미지를 분석하여 한 세트의 메타데이터를 도출한다(블록 232)(이 메타데이터는 얼굴/목표물 위치 및 식별 메타데이터로서 지칭될 수 있다). 이어서, 이 메타데이터가 저장된다. 일 실시예에서, 이 메타데이터는 이미지와 함께 저장된다(설명을 위해, 아래의 설명에서는 메타데이터가 이미지와 함께 저장되는 것으로 가정한다). 대안으로서, 메타데이터는 저장소(예로서, 데이터베이스, 파일 시스템 등) 내에 저장되고, 이미지와 연관될 수 있다. 이미지에 대한 메타데이터가 (예를 들어, 이미지 프레이밍 프로세스 동안 사용자에게 오디오 피드백을 제공하는 것의 일부로서) 이전에 이미 도출된 경우, (저장된) 그 메타데이터가 캡처 이미지에 대한 메타데이터로서 사용될 수 있다. 그렇지 않은 경우, 캡처 이미지에 대한 메타데이터가 새로 도출될 수 있다. 메타데이터를 도출할 때, 장치(100)는 여러 기능을 수행할 수 있다. 예를 들어, 장치(100)는 캡처 이미지에 (전술한 방식으로) 얼굴 검출 기술들을 적용하여, 얼마나 많은 얼굴이 이미지 내에 있는지를 결정할 수 있다. 검출된 얼굴들의 수는 캡처 이미지에 대한 메타데이터의 일부로서 저장될 수 있다. 게다가, 얼굴 검출 프로세스의 일부로서, 장치(100)는 이미지 내의 얼굴들을 구성하는 픽셀들을 (전술한 방식으로) 식별할 수 있다. 이러한 정보를 이용하여, 장치(100)는 나중에 얼굴들이 캡처 이미지 내의 어느 곳에 위치하는지를 결정할 수 있을 것이다. 게다가, 장치(100)는 얼굴 내의 픽셀들의 소정 그룹들을 얼굴의 서브컴포넌트들(예로서, 눈, 코, 입 등)로서 식별할 수 있다. 이러한 픽셀 정보 모두는 캡처 이미지에 대한 메타데이터의 일부로서 저장될 수 있다. 더구나, 장치(100)는 얼굴 인식 기술들을 (전술한 방식으로) 적용하여, 캡처 이미지 내에 나타나는 얼굴들을 식별할 수 있다. 이러한 정보를 이용하여, 장치(100)는 이름들을 캡처 이미지 내의 얼굴들과 연관시킬 수 있다. 이러한 식별 정보도 캡처 이미지에 대한 메타데이터의 일부로서 저장될 수 있다. 이들 및 다른 메타데이터 세트들이 도출되고, 캡처 이미지와 함께 저장될 수 있다.

메타데이터가 도출되면, 메타데이터는 장치(100)에 의해 사용될 수 있다. 일 실시예에서, 이미지가 영구적으로 캡처된 직후 또는 머지않아, 장치(100)는 메타데이터를 이용하여, 캡처 이미지에 관한 오디오 피드백을 사용자에게 제공한다(블록 236). 예를 들어, 메타데이터가 캡처 이미지가 자카리 및 에밀리에 속하는 2개의 얼굴을 갖는 것으로 지시하는 경우, 장치(100)는 "2개의 얼굴", "자카리", "에밀리"라고 말하는 오디오 메시지들을 사용자에게 제공할 수 있다. 이러한 오디오 피드백은 어떤 이미지가 방금 캡처되었는지에 대한 확인을 사용자에게 제공한다. 일 실시예에서, 이러한 오디오 피드백을 제공한 후, 장치(100)는 블록 204로 루프 백하여, 사용자가 다른 이미지의 캡처를 준비하는 것을 돕는다.

캡처 이미지 검토 기능

이미지가 영구적으로 캡처되고 저장된 후의 소정 시점에서, 사용자는 이미지를 검토하기를 원할 수 있다. 도 4를 참조하면, 본 발명의 일 실시예에 따른, 사용자가 이미지를 검토하는 것을 돕기 위해 장치(100)에 의해 수행되는 동작들을 나타내는 흐름도가 도시되어 있다. 이러한 동작들을 호출하기 위해, 시각 장애 사용자는 장치(100)와 상호작용하여, (아직 행해지지 않은 경우에) 장치(100)의 오디오 메시징 능력을 이용하기 위한 일부 사용자 설정들을 설정할 수 있다. 이어서, 사용자는 이러한 오디오 메시징 능력을 이용하는 애플리케이션(112)(예로서, 이미지 검토 애플리케이션)을 호출할 수 있다. 이것이 행해진 후, 장치(100)는 도 4에 도시된 동작들을 수행할 것이다.

먼저, 장치(100)는 캡처 이미지를 검색하여 터치 감지 디스플레이(116) 상에 표시한다(블록 404). 이러한 검색의 일부로서, 장치(100)는 또한 이미지와 함께 저장된 메타데이터에 액세스한다. 이 메타데이터에 기초하여, 장치(100)는 이미지의 내용을 사용자에게 알리기 위한 하나 이상의 오디오 메시지를 사용자에게 제공한다(블록 408). 예를 들어, 장치(100)는 이미지 내에 얼마나 많은 얼굴이 있는지를 지시하는 오디오 메시지를 제공할 수 있다. 이미지 내의 2개의 얼굴이 있는 경우, 오디오 메시지는 "2개의 얼굴"이라고 말할 수 있다. 캡처 이미지와 함께 저장된 메타데이터가 이미지 내의 얼굴들에 대한 식별 정보를 포함하는 경우, 장치는 사진 내에 누가 있는지를 상술하는 하나 이상의 오디오 메시지를 제공할 수 있다. 예를 들어, 이미지 내의 얼굴들이 자카리 및 에밀리에 속하는 경우, 장치(100)는 "자카리", "에밀리"라고 말하는 오디오 메시지들을 제공할 수 있다. 일부 예들에서, 이미지 내의 얼굴들 중 일부는 인식될 수 있는 반면, 다른 얼굴들은 인식되지 않는다. 그러한 경우, 장치(100)는 인식된 얼굴들의 이름들을 알리고, 하나 이상의 다른 얼굴에 명칭을 할당할 수 있다. 예를 들어, 장치(100)는 "자카리", "에밀리", "미지의 얼굴 1", "미지의 얼굴 2"라고 말하는 오디오 메시지들을 제공할 수 있다.

다른 메타데이터에 관한 다른 오디오 메시지들도 사용자에게 제공될 수 있다. 예를 들어, 장치(100)는 이미지가 촬영된 날짜, 이미지가 캡처된 장소, 이미지와 관련된 앨범 등을 알리는 오디오 메시지들을 제공할 수 있다. 이러한 정보 모두는 사용자가 이미지를 즐기는 것을 돕기 위한 상황을 제공한다.

이미지 검토의 일부로서, 사용자는 다양한 얼굴들이 이미지 내의 어느 곳에 있는지를 알기를 원할 수 있다. 이와 관련하여 사용자를 돕기 위해, 장치(100)는 사용자로 하여금 이미지가 표시되고 있는 터치 감지 디스플레이(116)를 터치하는 것을 가능하게 한다. 장치(100)는 이러한 사용자 입력을 체크하여, 사용자가 현재 디스플레이(116)의 일부를 터치하고 있는지를 결정한다(블록 412). 그러한 사용자 입력이 검출되지 않는 경우, 장치(100)는 루프를 수행하여 사용자 입력을 계속 체크한다. 그러나, 사용자가 현재 디스플레이(116)의 일부를 터치하고 있다는 것을 지시하는 사용자 입력이 검출되는 경우, 장치(100)는 사용자 입력에 응답하여 적절한 오디오 메시지를 제공하기 시작한다(블록 416). 일 실시예에서, 장치(100)는 이미지의 어느 부분, 따라서 어느 픽셀들이 현재 사용자에 의해 터치되고 있는지를 결정함으로써 그것을 행한다. 이어서, 장치(100)는 이들 픽셀이 사진 내의 얼굴들 중 하나를 구성하는 픽셀들에 대응하는지를 결정한다. 이러한 결정은 이미지와 함께 저장된 픽셀 메타데이터를 이용하여 행해질 수 있다(이 픽셀 메타데이터는 이미지 내의 얼굴들 각각을 구성하는 픽셀들을 상술한다). 이러한 결정에 기초하여, 장치(100)는 적절한 오디오 메시지를 사용자에게 제공한다. 예를 들어, 사용자에 의해 터치되고 있는 부분이 프레임 내의 어떠한 얼굴에도 대응하지 않는 경우, 장치(100)는 삑 소리를 제공할 수 있다(또는 사용자에 의하여 선택된 소정의 다른 소리 또는 "아무 것도 없음"을 의미하는 소리로서 적절히 인정되는 소리를 제공하거나 소리를 전혀 제공하지 않을 수 있다). 한편, 터치된 부분이 프레임 내의 얼굴에 대응하는 경우, 장치는 그것을 지시하는 오디오 메시지를 제공할 수 있다. 예컨대, 오디오 메시지는 "미지의 얼굴 1"이라고 말할 수 있다. 얼굴이 얼굴 인식 프로세스 동안 식별된 경우, 오디오 메시지는 더 구체적일 수 있다. 예컨대, 터치된 부분이 자카리의 얼굴에 대응하는 경우, 오디오 메시지는 "자카리"라고 말할 수 있다. 더구나, 얼굴의 터치된 부분이 얼굴의 서브 컴포넌트들(예로서, 눈, 코, 입 등) 중 하나에 대응하는 경우, 장치는 훨씬 더 구체적인 오디오 메시지들을 제공할 수 있다. 예를 들어, 터치된 부분이 자카리의 입에 대응하는 경우, 장치(100)는 "자카리", "입"이라고 말하는 오디오 메시지들을 제공할 수 있다. 이러한 기능을 이용하여, 사용자는 얼굴들이 이미지 내의 어느 곳에 있는지 그리고 이들이 서로에 대해 어떻게 배치되어 있는지를 결정할 수 있다. 이것은 사용자가 이미지를 "가시화"하는 것을 가능하게 한다.

일 실시예에서, 블록 416에서 오디오 메시지를 제공한 후, 장치(100)는 블록 412로 루프 백하여, 사용자가 여전히 디스플레이(116)를 터치하고 있는지를 결정한다. 그러한 경우, 장치(100)는 블록 416으로 진행하여, 사용자에게 다른 오디오 메시지를 제공할 수 있다. 일 실시예에서, 장치(100)는 사용자 입력이 변경된 경우에만(예를 들어, 사용자가 디스플레이(116)의 다른 부분을 터치하고 있는 경우) 다른 오디오 메시지를 제공할 것이다. 이러한 루프를 이용하여, 사용자는 디스플레이(116)를 터치하고, 그의 손가락을 이미지의 다양한 부분들로 이동시키고, 그가 터치하는 다양한 부분들에 대한 오디오 피드백을 수신할 수 있다. 이러한 기능을 이용하여, 시각 장애 사용자는 얼굴들이 캡처 이미지 내의 어디에 있는지 그리고 이들이 서로에 대해 어떻게 배치되어 있는지를 결정할 수 있다. 이것은 사용자가 (예로서, 이미지 내의 피사체들의 구성 및 배열의 정신적 모델을 생성하기 위해) 이미지를 "가시화"하는 것을 가능하게 하며, 따라서 풍부한 이미지 검토 경험을 생성할 수 있다.

오디오 피드백은 이미지 검토 동안만이 아니라 다른 상황들에서도 사용자에게 제공될 수 있다. 예를 들어, 사용자가 이미지를 단지 검토하는 것이 아니라 편집하고 있는 동안에 사용자에게 오디오 피드백이 제공될 수 있다. 예를 들어, 사용자가 크로핑(cropping) 조정과 상호작용하고 있는 경우, 사용자에게 얼굴들의 수가 변경되었다는 것을 알리기 위해 오디오 메시지들이 제공될 수 있다(예를 들어, 크로핑 동작의 결과로서, 이제 이미지 내에는 전보다 적은 얼굴들이 존재한다). 일반적으로, 사전 이미지 캡처 프로세스 동안 제공되는 오디오 메시지들 전부는 편집/크로핑 프로세스 동안 제공될 수 있다. 이들 및 다른 상황들에서의 오디오 피드백의 사용은 본 발명의 범위 내에 있다.

위의 설명에서는, 사용자에 의해 검토되고 있는 이미지가 장치(100)를 이용하여 캡처된 이미지인 것으로 가정하고, 따라서 이미지에 대한 얼굴/목표물 위치 및 식별 메타데이터가 생성 및 저장되었다. 그러나, 이미지가 어떠한 얼굴/목표물 위치 및 식별 메타데이터도 갖지 않을 수 있는 상황들이 존재할 수 있다. 예를 들어, 이미지는 어떠한 그러한 메타데이터도 없이 수신된 또는 그러한 메타데이터를 생성하지 않는 장치를 이용하여 캡처된 이미지일 수 있다. 이미지가 어떠한 관련된 얼굴/목표물 위치 및 식별 메타데이터도 갖지 않는 경우, 장치(100)는 주문시에 전술한 방식으로 (예를 들어, 얼굴 검출 및 인식 분석을 이용하여) 이미지를 분석하여, 얼굴/목표물 위치 및 식별 메타데이터를 생성할 수 있다. 일단 도출되면, 메타데이터는 장치(100)에 의해 전술한 방식으로 사용자에게 오디오 피드백을 제공하는 데 사용될 수 있다.

변경/개량

위의 설명에서는, 얼굴들을 검출하고 인식하기 위해 검출 및 인식 기술들이 적용된다. 본 발명에 이에 한정되지 않는다는 점에 유의해야 한다. 오히려, 검출 및 인식 기술들은 얼굴들에 붙은 몸체들, 이미지 내의 다른 목표물들 및 영역들(예를 들어, 집, 차, 나무, 하늘, 풀밭 등) 등과 같은 다른 아이템들도 검출하고 식별하기 위해 적용될 수 있다. 또한, 검출 및 인식은 임의의 원하는 입도로 확장될 수 있다. 예를 들어, 이들은 얼굴들에 붙은 몸체들을 검출할 뿐만 아니라, 몸통과 팔다리를 구별하고, 손가락과 팔을 구별하는 것 등을 위해서도 사용될 수 있다. 게다가, 수집되고 저장되는 픽셀 정보는 훨씬 더 상세할 수 있다. 더 상세한 픽셀 정보를 이용하여 그리고 픽셀 정보를 말하는 더 많은 오디오 메시지를 이용하여, 사용자는 이미지가 표시되는 터치 감지 디스플레이를 터치할 때 더 많은 정보를 얻을 수 있다. 예를 들어, 사용자가 나무를 표시하는 이미지의 일부를 터치할 때, 장치(100)는 "나무"라고 말할 수 있다. 사용자가 하늘 또는 풀밭과 같은 영역을 터치할 때, 사용자가 이미지를 탐색하고 있는 동안 이러한 요소들에 대해 들을 수 있도록 하나 이상의 오디오 메시지가 재생될 수 있다. 사용자가 자카리의 팔에 대응하는 부분을 터치할 때, 장치(100)는 "자카리의 팔"이라고 말할 수 있다. 팔의 위치를 추적함으로써, 사용자는 팔이 올라가 있는지 내려가 있는지, 팔 끝의 손가락들이 "평화" 사인을 행하고 있는지 등을 식별할 수 있다. 이러한 추가적인 상세를 이용하여, 사용자는 이미지가 캡처된 설정 및 이미지 내의 피사체들이 무엇을 하고 있는지를 명확히 알 수 있다. 이들 및 다른 변경들 및 개량들이 행해질 수 있고, 본 발명의 범위 내에 있다.

위의 명세서에서, 본 발명의 실시예들은 구현마다 다를 수 있는 다양한 특정 상세를 참조하여 설명되었다. 따라서, 무엇이 발명이고, 무엇이 출원인에 의해 발명인 것으로 의도되는지에 대한 유일하고 배타적인 지시자는 본원으로부터 허여되는 청구범위이며, 그러한 청구범위는 특정 형태로 허여되고, 임의의 후속 보정을 포함한다. 그러한 청구범위에 포함된 용어들에 대해 본 명세서에서 명확히 설명되는 임의의 정의들은 청구범위에서 사용되는 바와 같은 그러한 용어들의 의미를 지배할 것이다. 따라서, 청구항에 명시적으로 기재되지 않은 어떠한 한정, 요소, 특성, 특징, 장점 또는 속성도 그러한 청구항의 범위를 전혀 제한하지 않아야 한다. 따라서, 명세서 및 도면들은 한정이 아니라 예시적인 것으로 간주되어야 한다.

Claims

장치로서,
이미지 캡처링 메커니즘; 및
상기 이미지 캡처링 메커니즘에 결합된 이미지 프로세서
를 포함하고,
상기 이미지 프로세서는, 상기 장치로 하여금,
복수의 얼굴들을 포함하는 장면의 이미지를 캡처하는 동작;
상기 이미지 내의 상기 복수의 얼굴들을 분석하는 동작;
상기 이미지 내의 상기 복수의 얼굴들 중 적어도 두 개의 얼굴들을 검출하는 동작;
상기 검출된 얼굴들을 식별하도록 얼굴 인식을 수행하는 동작;
상기 얼굴 인식에 기초해서 상기 검출된 얼굴들 각각에 대한 고유 식별자를 결정하는 동작;
상기 검출된 얼굴들이 상기 이미지의 하나 이상의 에지에 대해 어떻게 배치되는지 결정하는 동작;
상기 검출된 얼굴들을 식별하기 위한 상기 고유 식별자들을 후속적으로 캡처된 이미지들 내에서 유지하는 동작; 및
각자의 고유 식별자에 기초해서 상기 검출된 얼굴들 중 적어도 하나의 얼굴을 식별하고 상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지 내에 어떻게 배치되는지를 나타내는 제1 오디오 메시지를 생성하는 동작
을 수행하게 하도록 구성되는, 장치.
삭제
삭제
제1항에 있어서,
상기 제1 오디오 메시지는 상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지의 하나 이상의 에지에 가깝거나 상기 이미지의 중앙 부분 내에 있다는 것을 나타내는, 장치.
제1항에 있어서,
상기 검출된 얼굴들이 상기 이미지의 하나 이상의 에지에 대해 어떻게 배치되는지를 결정하는 동작은, 상기 검출된 얼굴들 중 특정 얼굴과 상기 이미지의 상기 하나 이상의 에지 중 특정 에지 사이의 거리(separation)가 임계치 아래인지를 결정하는 동작을 포함하는, 장치.
제1항에 있어서,
상기 검출된 얼굴들 중 적어도 특정 얼굴의 크기를 결정하는 동작을 또한 포함하고,
상기 특정 얼굴의 크기를 결정하는 동작은, 상기 특정 얼굴의 크기가 하한 임계치(lower threshold)보다 작은지 또는 상한 임계치(upper threshold)보다 큰지를 결정하는 동작과, 상기 특정 얼굴의 상기 크기가 상기 하한 임계치보다 작은 것인지 및 상기 상한 임계치보다 큰 것인지 중 하나를 나타내도록 상기 제1 오디오 메시지를 생성하는 동작을 포함하는, 장치.
제1항에 있어서,
터치 감지 입력 메커니즘을 더 포함하고,
상기 이미지 프로세서는, 상기 장치로 하여금,
상기 터치 감지 입력 메커니즘의 특정 부분에서의 입력을 검출하는 동작;
상기 터치 감지 입력 메커니즘의 상기 특정 부분을 상기 이미지의 특정 부분과 상관시키는 동작;
상기 이미지의 상기 특정 부분이 상기 검출된 얼굴들 중 하나의 얼굴에 대응하는지를 결정하는 동작; 및
상기 이미지의 상기 특정 부분이 상기 검출된 얼굴들 중 하나의 얼굴에 대응한다는 결정에 응답하여, 상기 이미지의 상기 특정 부분에 대응하는 상기 얼굴에 관한 정보를 갖는 하나 이상의 오디오 메시지를 제공하는 동작
을 또한 수행하게 하도록 구성되는, 장치.
제7항에 있어서,
상기 이미지의 상기 특정 부분에 대응하는 상기 얼굴에 관한 정보를 갖는 하나 이상의 오디오 메시지를 제공하는 동작은, 상기 이미지의 상기 특정 부분에 대응하는 상기 얼굴에 관한 식별 정보를 갖는 오디오 메시지를 제공하는 동작을 포함하는, 장치.
제1항에 있어서,
상기 이미지는 최초 이미지(initial image)이고, 상기 복수의 얼굴들은 특정 얼굴을 포함하며,
상기 이미지 프로세서는, 상기 장치로 하여금,
상기 특정 얼굴을 포함하는 상기 장면의 후속 이미지를 캡처하는 동작;
상기 후속 이미지에서 상기 특정 얼굴을 검출하는 동작;
상기 최초 이미지 내의 상기 특정 얼굴을 상기 후속 이미지 내의 상기 특정 얼굴과 연관시키는 동작; 및
다수의 이미지에 걸쳐 상기 특정 얼굴에 대해 동일한 명칭(designation)이 사용되도록, 상기 최초 이미지 내의 상기 특정 얼굴에 할당된 명칭을 상기 후속 이미지 내의 상기 특정 얼굴과 연관시키는 동작
을 또한 수행하게 하도록 구성되는, 장치.
제1항에 있어서,
상기 이미지는 영구 이미지로서 저장되지 않은 최초 임시 이미지이고,
상기 이미지 프로세서는, 상기 장치로 하여금,
상기 제1 오디오 메시지에 응답하여 사용자가 장면 프레이밍 조정들(scene framing adjustments)을 행한 후에 상기 장면의 후속 임시 이미지를 캡처하는 동작 - 상기 후속 임시 이미지는 영구 이미지로서 저장되지 않음 -;
상기 후속 임시 이미지에서 하나 이상의 얼굴을 검출하는 동작;
상기 후속 임시 이미지 내의 상기 하나 이상의 얼굴에 관한 정보를 갖는 하나 이상의 오디오 메시지를 제공하는 동작;
현재 프레이밍되는 상기 장면의 영구 이미지를 캡처하도록 하는 요청을 나타내는 입력을 검출하는 동작; 및
상기 입력에 응답하여, 현재 프레이밍되는 상기 장면의 영구 이미지를 캡처하는 동작
을 또한 수행하게 하도록 구성되는, 장치.
명령어들을 저장하는 컴퓨터 판독 가능 저장 매체로서,
상기 명령어들은, 장치의 하나 이상의 프로세서에 의해 실행될 때, 상기 장치로 하여금,
복수의 얼굴들을 포함하는 장면의 이미지를 캡처하는 동작;
상기 이미지 내의 상기 복수의 얼굴들을 분석하는 동작;
상기 이미지 내의 상기 복수의 얼굴들 중 적어도 두 개의 얼굴들을 검출하는 동작;
상기 검출된 얼굴들을 식별하도록 얼굴 인식을 수행하는 동작;
상기 얼굴 인식에 기초해서 상기 검출된 얼굴들 각각에 대한 고유 식별자를 결정하는 동작;
상기 검출된 얼굴들이 상기 이미지의 하나 이상의 에지에 대해 어떻게 배치되는지 결정하는 동작;
상기 검출된 얼굴들을 식별하기 위한 상기 고유 식별자들을 후속적으로 캡처된 이미지들 내에서 유지하는 동작; 및
각자의 고유 식별자에 기초해서 상기 검출된 얼굴들 중 적어도 하나의 얼굴을 식별하고 상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지 내에 어떻게 배치되는지를 나타내는 제1 오디오 메시지를 생성하는 동작
을 수행하게 하는, 컴퓨터 판독 가능 저장 매체.
삭제
제11항에 있어서,
상기 검출된 얼굴들 중 적어도 특정 얼굴의 크기를 결정하는 동작을 또한 포함하고, 상기 제1 오디오 메시지는 상기 특정 얼굴의 크기를 나타내는, 컴퓨터 판독 가능 저장 매체.
제13항에 있어서,
상기 적어도 특정 얼굴의 크기를 결정하는 동작은, 상기 특정 얼굴의 크기가 하한 임계치보다 작은지 또는 상한 임계치보다 큰지를 결정하는 동작; 및
상기 특정 얼굴의 크기가 상기 하한 임계치보다 작은 것인지 및 상기 상한 임계치보다 큰 것인지 중 하나를 나타내도록 상기 제1 오디오 메시지를 생성하는 동작
을 포함하는, 컴퓨터 판독 가능 저장 매체.
제11항에 있어서,
상기 명령어들은, 상기 장치로 하여금,
터치 감지 입력 메커니즘의 특정 부분에서의 입력을 검출하는 동작;
상기 터치 감지 입력 메커니즘의 상기 특정 부분을 상기 이미지의 특정 부분과 상관시키는 동작;
상기 이미지의 상기 특정 부분이 상기 검출된 얼굴들 중 하나의 얼굴에 대응하는지를 결정하는 동작; 및
상기 이미지의 상기 특정 부분이 상기 검출된 얼굴들 중 하나의 얼굴에 대응한다는 결정에 응답하여, 상기 이미지의 상기 특정 부분에 대응하는 상기 얼굴에 관한 정보를 갖는 하나 이상의 오디오 메시지를 제공하는 동작
을 또한 수행하게 하는 컴퓨터 판독 가능 저장 매체.
제15항에 있어서,
상기 이미지의 상기 특정 부분에 대응하는 상기 얼굴에 관한 정보를 갖는 하나 이상의 오디오 메시지를 제공하는 동작은, 상기 이미지의 상기 특정 부분에 대응하는 상기 얼굴에 관한 식별 정보를 갖는 오디오 메시지를 제공하는 동작을 포함하는, 컴퓨터 판독 가능 저장 매체.
장치로서,
카메라;
오디오 장치; 및
상기 카메라 및 상기 오디오 장치에 결합된 이미지 프로세서
를 포함하고,
상기 이미지 프로세서는, 상기 장치로 하여금,
복수의 얼굴들을 포함하는 장면의 이미지를 캡처하는 동작;
상기 이미지 내의 상기 복수의 얼굴들을 분석하는 동작;
상기 이미지 내의 상기 복수의 얼굴들 중 적어도 두 개의 얼굴들을 검출하는 동작;
상기 검출된 얼굴들을 식별하도록 얼굴 인식을 수행하는 동작;
상기 얼굴 인식에 기초해서 상기 검출된 얼굴들 각각에 대한 고유 식별자를 결정하는 동작;
상기 고유 식별자에 기초해서 상기 검출된 얼굴들 중 적어도 하나의 얼굴을 식별하는 제1 오디오 메시지를 생성하는 동작;
상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지의 하나 이상의 에지로부터 임계 거리 미만인지를 결정하는 동작; 및
상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지의 상기 하나 이상의 에지로부터 상기 임계 거리 미만이라는 결정에 응답하여, 상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지 내에 어떻게 배치되는지를 나타내는 오디오 메시지를 제공하는 동작
을 수행하게 하도록 구성되는, 장치.
제17항에 있어서,
상기 이미지 프로세서는, 상기 장치로 하여금, 상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지의 상기 하나 이상의 에지 중 임의의 에지로부터 상기 임계 거리 미만이 아니라는 결정에 응답하여, 상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지의 중앙 부분 내에 있다는 것을 나타내는 오디오 메시지를 제공하는 동작을 또한 수행하게 하도록 구성되는, 장치.
제17항에 있어서,
상기 이미지 프로세서는, 상기 장치로 하여금,
상기 검출된 얼굴들의 적어도 특정 얼굴의 크기를 결정하는 동작; 및
상기 특정 얼굴의 크기를 나타내는 오디오 메시지를 사용자에게 제공하는 동작
을 또한 수행하게 하도록 구성되는, 장치.
삭제
제17항에 있어서,
상기 장치는 터치 감지 입력 메커니즘을 더 포함하고,
상기 이미지 프로세서는, 상기 장치로 하여금,
상기 터치 감지 입력 메커니즘의 특정 부분에서의 입력을 검출하는 동작;
상기 터치 감지 입력 메커니즘의 상기 특정 부분을 상기 이미지의 특정 부분과 상관시키는 동작;
상기 이미지의 상기 특정 부분이 상기 검출된 얼굴들 중 하나의 얼굴에 대응하는지를 결정하는 동작; 및
상기 이미지의 상기 특정 부분이 상기 검출된 얼굴들 중 하나의 얼굴에 대응한다는 결정에 응답하여, 상기 이미지의 상기 특정 부분에 대응하는 상기 얼굴에 관한 정보를 갖는 오디오 메시지를 제공하는 동작
을 또한 수행하게 하도록 구성되는, 장치.
명령어들을 저장하는 컴퓨터 판독 가능 저장 매체로서,
상기 명령어들은, 장치의 하나 이상의 프로세서에 의해 실행될 때, 상기 장치로 하여금,
복수의 얼굴들을 포함하는 장면의 이미지를 캡처하는 동작;
상기 이미지 내의 상기 복수의 얼굴들을 분석하는 동작;
상기 이미지 내의 상기 복수의 얼굴들 중 적어도 두 개의 얼굴들을 검출하는 동작;
상기 검출된 얼굴들을 식별하도록 얼굴 인식을 수행하는 동작;
상기 얼굴 인식에 기초해서 상기 검출된 얼굴들 각각에 대한 고유 식별자를 결정하는 동작;
상기 고유 식별자에 기초해서 상기 검출된 얼굴들 중 적어도 하나의 얼굴을 식별하는 제1 오디오 메시지를 생성하는 동작;
상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지의 하나 이상의 에지로부터 임계 거리 미만인지 결정하는 동작; 및
상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지의 상기 하나 이상의 에지로부터 상기 임계 거리 미만이라는 결정에 응답하여, 상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지 내에 어떻게 배치되는지를 나타내는 오디오 메시지를 제공하는 동작
을 수행하게 하는 컴퓨터 판독 가능 저장 매체.
제22항에 있어서,
상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지의 하나 이상의 에지로부터 임계 거리 미만인지를 결정하는 동작은, 상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지의 어느 특정 에지 또는 에지들로부터 상기 임계 거리 미만인지를 결정하는 동작을 포함하고,
상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지의 하나 이상의 에지에 가깝다는 것을 나타내는 오디오 메시지를 제공하는 동작은, 상기 오디오 메시지에서 상기 특정 에지 또는 에지들을 상술하는 동작을 포함하는 컴퓨터 판독 가능 저장 매체.
제22항에 있어서,
상기 명령어들은, 상기 장치로 하여금, 상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지의 상기 하나 이상의 에지 중 임의의 에지로부터 상기 임계 거리 미만이 아니라는 결정에 응답하여, 상기 검출된 얼굴들 중 상기 적어도 하나의 얼굴이 상기 이미지의 중앙 부분 내에 있다는 것을 나타내는 오디오 메시지를 사용자에게 제공하는 동작을 또한 수행하게 하는 컴퓨터 판독 가능 저장 매체.
제22항에 있어서,
상기 명령어들은, 상기 장치로 하여금,
터치 감지 입력 메커니즘의 특정 부분에서의 입력을 검출하는 동작;
상기 터치 감지 입력 메커니즘의 상기 특정 부분을 상기 이미지의 특정 부분과 상관시키는 동작;
상기 이미지의 상기 특정 부분이 상기 검출된 얼굴들 중 하나의 얼굴에 대응하는지를 결정하는 동작; 및
상기 이미지의 상기 특정 부분이 상기 검출된 얼굴들 중 하나의 얼굴에 대응한다는 결정에 응답하여, 상기 이미지의 상기 특정 부분에 대응하는 상기 얼굴에 관한 정보를 갖는 오디오 메시지를 사용자에게 제공하는 동작
을 또한 수행하게 하는, 컴퓨터 판독 가능 저장 매체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제