KR101522909B1

KR101522909B1 - 카메라 사용가능 이동 디바이스에 의하여 캡쳐된 시각 미디어 콘텐츠의 식별

Info

Publication number: KR101522909B1
Application number: KR1020137005523A
Authority: KR
Inventors: 브라이언 모메이어; 셀레나 멜리사 살라자르; 바박 포루탄포울
Original assignee: 퀄컴 인코포레이티드
Priority date: 2010-08-05
Filing date: 2011-08-05
Publication date: 2015-05-26
Also published as: JP5666703B2; CN103052961B; WO2012019163A3; KR20130060280A; US8781152B2; CN103052961A; JP2013535752A; WO2012019163A2; US20120033876A1; EP2601616B1; EP2601616A2

Abstract

미디어 콘텐츠의 자동적 식별은 다른 디바이스를 통해 사용자에게 제시되는 미디어 콘텐츠의 스틸 이미지 또는 비디오 이미지의 시각적 캡쳐에 적어도 부분적으로 기반한다. 미디어 콘텐츠는 사용자의 위치를 결정하는 것, 미디어 콘텐츠의 오디오 부분을 캡쳐하는 것, 캡쳐 날짜 및 시간, 또는 사용자의 프로파일/행동 특징들에 의하여 추가로 정제(refine)될 수 있다. 미디어 콘텐츠를 식별하는 것은, (1) 비디오 디스플레이에 대응하는 직사각형 조명(illumination)을 구분하는 것; (2) 디스플레이된 이미지/비디오 내에 제시되는 워터마크를 디코딩하는 것; (3) 프로그램의 부분 또는 특정 타임 스탬프를 결정하기에 충분하게 프리젠테이션을 특징화하는 것; 및 (4) 프로그램을 감상하기 위한 사용자 설정 선호도들(예를 들어, 클로즈-캡셔닝(close captioning), 종횡비, 언어)을 결정하는 것을 요구할 수 있다. 따라서, 식별되는 적절히 포맷팅된 미디어 콘텐츠가 이동 디바이스의 사용자 인터페이스 상에 지속적인 프리젠테이션을 위해 수신될 수 있다.

Description

카메라 사용가능 이동 디바이스에 의하여 캡쳐된 시각 미디어 콘텐츠의 식별 {IDENTIFYING VISUAL MEDIA CONTENT CAPTURED BY CAMERA-ENABLED MOBILE DEVICE}

본 개시물은 이동 작동 환경에 관한 것이며, 더욱 상세하게는, 카메라 사용가능 이동 디바이스에 의하여 캡쳐되는 시각 미디어 콘텐츠를 시각적으로 식별하는 것에 관한 것이다.

수십 년에 걸쳐, 디지털 이미지 프로세싱에서의 개발들은 이미지 인식과 같은 특정한 비전(vision) 능력들을 자동화하도록 시도해왔다. 컴퓨터 비전은 자율 내비게이션(autonomous navigation)을 감안하기 위하여 장애물들을 인식하도록 시도해왔다. 광학적 문자 인식은 이미지의 비뚤어짐(skew)을 검출하는 것 및 문자 형상 상관(correlation)들을 수행하는 것과 같은 기법들에 의존한다. 감시 시스템들은 보안을 유지하기 위하여 얼굴들과 같은 바이오메트릭(biometric) 데이터를 인식하도록 시도한다.

이미지 프로세싱의 일 예는 알려지지 않은 세그먼트에 대하여 생성된 디지털 키 시그니쳐에 의해 추후에 매칭될 수 있는 비디오 방송 프로그램의 각각의 알려진 세그먼트에 대한 디지털 키 시그니쳐를 생성하는 것이다. 그러한 기법들은 방송 광고사들에 의해, 특정 마켓들에서 어떤 광고들이 방송되었는지 알기 위한 자동화된 추적에 사용되었다. 그러한 프로세싱은 방송 비디오 신호의 높은 충실도의 버전을 샘플링할 수 있는 것으로부터 이익을 얻었다. 또한, 그러한 샘플링 및 분석은 소정 시간 동안(for the time) 높은 프로세싱 능력을 가진 장비에 의하여 수행될 수 있다. 이로써, 이미지 프로세싱은, 일반적으로 이동성이 아니고 고객 사용을 위해 의도되지도 않은 디바이스들에 의하여 수행되었다.

기술의 진보들은 더욱 작고 더욱 강력한 컴퓨팅 디바이스들을 초래하였다. 예를 들어, 작고 경량이며 사용자들에게 용이하게 휴대되는, 휴대용 무선 전화들, 개인용 디지털 단말들(PDA들) 및 페이징 디바이스들과 같은 무선 컴퓨팅 디바이스들을 포함하는, 다양한 휴대용 개인용 컴퓨팅 디바이스들이 현재 존재한다. 더욱 구체적으로, 셀룰러 전화들 및 인터넷 프로토콜(IP) 전화들과 같은 휴대용 무선 전화들은 무선 네트워크들을 통해 음성 및 데이터 패킷들을 통신할 수 있다. 더욱이, 많은 그러한 무선 전화들은 내부에 통합되는 다른 타입들의 디바이스들을 포함한다.

디지털 신호 프로세서들(DSP들), 이미지 프로세서들 및 다른 프로세싱 디바이스들은, 디지털 카메라들을 포함하는 또는 디지털 카메라에 의하여 캡쳐되는 이미지 또는 비디오 데이터를 디스플레이하는 휴대용 개인용 컴퓨팅 디바이스들에서 흔히 사용된다. 그러한 프로세싱 디바이스들은 비디오 및 오디오 기능들을 제공하기 위하여, 이미지 데이터와 같은 수신된 데이터를 프로세싱하기 위하여, 또는 다른 기능들을 수행하기 위하여 이용될 수 있다. 디지털 이미지화 기술은 컴팩트 디바이스들이 이미지 데이터를 향상시키고 송신하는 것뿐 아니라, 이미지 데이터를 캡쳐하도록 허용한다.

몇몇 장소(venue)에서 사용자가 미디어 콘텐츠를 소모하나, 그들의 이동 디바이스 상에서 그 데이터를 끊임없이 시청하거나 판독하기 원하는 사례들이 발생할 수 있다. 장소를 떠난 이후 계속해서 이 콘텐츠를 시청하거나 판독하기를 원하면, 사용자는 광범위한 탐색 없이 이 콘텐츠를 용이하게 위치시키기 원한다. 이것은 미디어 콘텐츠의 소스에 대한 직접 액세스가 부족한 경우 특히 참(true)일 수 있다. 또한, 오디오 인식과 달리, 미디어 콘텐츠의 세그먼트의 자동화된 비전 인식을 수행하는데 많은 복잡한 문제(complication)들이 발생할 수 있다. 휴대용 개인용 컴퓨팅 디바이스의 뷰파인더(viewfinder)를 통한 이미지 또는 비디오 세그먼트를 캡쳐하도록 시도하는 것은, 시야(field of view) 내의 관련없는 이미지들 및 이미지의 배향에 의하여 복잡해질 수 있다.

다음은 그러한 양상들의 기본적 이해를 제공하기 위하여 하나 또는 그 초과의 양상들의 간략화된 요약을 제시한다. 이 요약은 모든 고려되는 양상들의 광범위한 개관이 아니며, 모든 양상들의 핵심 또는 중요 엘리먼트들을 식별하거나 또는 임의의 또는 모든 양상들의 범위를 서술하도록 의도되지 않는다. 그것의 유일한 목적은 차후에 제시되는 더욱 상세한 설명에 대한 서문으로서 간략화된 형태로 하나 또는 그 초과의 양상들의 몇몇 개념들을 제시하는 것이다.

일 양상에서, 시각 미디어 콘텐츠를 식별하기 위한 방법이 제공된다. 이미지는 이동 디바이스의 카메라로부터 수신된다. 이미지 내에 포함되는 4변형(quadrilateral)이 검출된다. 시각 미디어 콘텐츠를 식별하기 위하여 4변형 내에 포함되는 시각 미디어 콘텐츠가 캡쳐된다.

다른 양상에서, 시각 미디어 콘텐츠를 식별하기 위하여 적어도 하나의 프로세서가 제공된다. 제1 모듈은 이동 디바이스의 카메라로부터 이미지를 수신한다. 제2 모듈은 이미지 내에 포함되는 4변형을 검출한다. 제3 모듈은 시각 미디어 콘텐츠를 식별하기 위하여 4변형 내에 포함되는 시각 미디어 콘텐츠를 캡쳐한다.

부가적인 양상에서, 시각 미디어 콘텐츠를 식별하기 위한 컴퓨터 프로그램 물건이 제공된다. 비-일시적 컴퓨터-판독가능 저장 매체는 코드들의 세트들을 포함한다. 제1 세트의 코드들은 컴퓨터로 하여금 이동 디바이스의 카메라로부터 이미지를 수신하게 한다. 제2 세트의 코드들은 컴퓨터로 하여금 이미지 내에 포함되는 4변형을 검출하게 한다. 제3 세트의 코드들은 컴퓨터로 하여금 시각 미디어 콘텐츠를 식별하기 위하여 4변형 내에 포함되는 시각 미디어 콘텐츠를 캡쳐하게 한다.

다른 부가적인 양상에서, 시각 미디어 콘텐츠를 식별하기 위한 장치가 제공된다. 이동 디바이스의 카메라로부터 이미지를 수신하기 위한 수단이 제공된다. 이미지 내에 포함되는 4변형을 검출하기 위한 수단이 제공된다. 시각 미디어 콘텐츠를 식별하기 위하여 4변형 내에 포함되는 시각 미디어 콘텐츠를 캡쳐하기 위한 수단이 제공된다.

추가적 양상에서, 시각 미디어 콘텐츠를 식별하기 위한 장치가 제공된다. 이동 디바이스의 카메라는 이미지를 생성한다. 컴퓨팅 플랫폼은 카메라로부터 수신되는 이미지 내에 포함된 4변형을 검출하고, 시각 미디어 콘텐츠를 식별하기 위해 4변형 내에 포함되는 시각 미디어 콘텐츠를 캡쳐한다.

전술한 그리고 관련된 목적들의 달성을 위해, 하나 또는 그 초과의 양상들은 이하에서 완전히 설명되고 특히 청구항들에서 지적된 피쳐들을 포함한다. 하기의 설명 및 첨부 도면들은 하나 또는 그 초과의 양상들의 특정한 예시적 피쳐들을 상세히 진술한다. 그러나 이들 피쳐들은 다양한 양상들의 원리들이 이용될 수 있는 다양한 방식들 중 몇몇 만을 표시하며, 이 설명은 모든 그러한 양상들 및 그들의 동등물들을 포함하도록 의도된다.

도 1은 사용자에 의한 감상(viewing)을 위해 디스플레이에 의하여 외부적으로 제시되는 시각 미디어 콘텐츠를 식별하는 이동 디바이스의 개략도를 예시한다.
도 2는 시각 미디어 콘텐츠를 식별하기 위한 동작들의 시퀀스 또는 방법론의 흐름도를 예시한다.
도 3a는 카메라에 의하여 이미지화되는 검출된 외부 디스플레이 내에 시각 미디어 콘텐츠를 캡쳐하고 식별하기 위한 동작들의 시퀀스 또는 방법론의 흐름도를 예시한다.
도 3b는 이미지 내에 4변형 이미지/비디오 소스를 발견하기 위한 동작들의 시퀀스 또는 방법론의 흐름도를 예시한다.
도 3c는 캡쳐된 프레임들의 미디어 콘텐츠를 식별하기 위한 동작들의 시퀀스 또는 방법론의 흐름도를 예시한다.
도 4는 카메라 사용가능 통신 디바이스를 사용하는 이미지 분석을 위한 동작들의 시퀀스 또는 방법론의 흐름도를 예시한다.
도 5는 측면 관점으로부터의 디스플레이를 포함하는, 룸(room)의 예시적인 더 낮은 해상도의 이미지의 그래픽 도면을 예시한다.
도 6은 디스플레이를 자동적으로 규정하기 위한 후보들로서 다수의 검출된 코너(corner)들을 갖는 룸의 관심 영역(ROI: Region of Interest) 부분의 예시적인 더 낮은 해상도의 이미지의 그래픽 도면을 예시한다.
도 7은 이미지 분석으로부터 얻어지는 클러스터링되고(clustered) 프루닝된(pruned) 후보 픽셀들의 세트의 그래픽 도면을 예시한다.
도 8은 시각 미디어 콘텐츠를 식별하기 위한 시스템의 개략도를 예시한다.
도 9는 시각 미디어 콘텐츠를 식별하기 위한 수단을 갖는 장치의 개략도를 예시한다.
도 10은 히스토그램, 코너 검출기 및 스케일 불변 피쳐 변환(SIFT: Scale Invariant Feature Transform) 생성기를 포함하는 이동 디바이스의 블록도이다.
도 11은 간섭 제어 동작들을 수행하는 하나 또는 그 초과의 컴포넌트들을 포함할 수 있는 통신 컴포넌트들의 개략도를 예시한다.
도 12는 예시적인 컴퓨팅 환경의 개략도를 예시한다.

감상되고 있는 미디어 콘텐츠(예를 들어, 텍스트, 이미지, 비디오)가 다른 수단을 통해 식별되고 전달될 필요가 있는 경우들이 발생한다. 그에 의해 사용자는 편리한 방식으로 미디어 콘텐츠를 소모할 수 있다. 예를 들어, 사용자는 인쇄된 정기 간행물에 포함되거나 컴퓨터 모니터 상에 디스플레이되는 텍스트-기반 뉴스 또는 엔터테인먼트 기사와 같은 미디어 콘텐츠를 판독할 수 있다. 유사하게, 미디어 콘텐츠는 개략적인 그림 또는 사진과 같이 그래픽적일 수 있다. 다른 예에서, 사용자는 비디오 미디어 콘텐츠가 디스플레이되는 장소(venue)에 방문할 수 있다. 감상되고 있는 것을 추후의 리트리벌(retrieval)을 위해 빠르게 캡쳐하기 위하여, 사용자는 카메라 능력을 편리하게 사용할 수 있다. 텍스트-기반 또는 그래픽 기사 또는 비디오 미디어 콘텐츠의 완전한(full) 콘텐츠를 빠르게 캡쳐하고 추후에 참고하기 위하여, 사용자는 카메라 사용가능 이동 디바이스(예를 들어, 스마트폰, 휴대용 게임 콘솔, 개인용 디지털 단말 등)를 사용할 수 있다.

다양한 양상들이 이제 도면들을 참고하여 설명된다. 하기의 설명에서, 설명을 목적으로, 많은 특정 세부사항들이 하나 또는 그 초과의 양상들의 완전한 이해를 제공하기 위하여 진술된다. 그러나 다양한 양상들이 이들 특정 세부사항들 없이도 실행될 수 있음이 명백할 수 있다. 다른 사례들에서, 잘 알려진 구조물들 및 디바이스들은 이들 양상들의 설명을 용이하게 하기 위하여 블록도 형태로 보여진다.

처음에, 도 1을 참고하여, 이동 디바이스(102)로서 도시되는 장치(100)는 사용자(108)에 의한 감상을 위해 디스플레이(106)에 의하여 외부적으로 제시되는 시각 미디어 콘텐츠(104)를 식별한다. 이동 디바이스(102)의 카메라(110)는 디지털 이미지(112)를 생성한다. 컴퓨팅 플랫폼(114)은, 외부 디스플레이(106)에 대응하고 카메라(110)로부터 수신되는 디지털 이미지(112) 내에 포함되는 4변형(116)을 검출한다. 컴퓨팅 플랫폼(114)은 4변형(116) 내에 포함되는 시각 미디어 콘텐츠(104)를 캡쳐하기 위하여 4변형(116)을 에워싸기(encompass) 위해 카메라(110)에 의한 더 높은 해상도의 이미지화를 지시할 수 있다. 컴퓨팅 플랫폼(114), 원격 서버(118), 또는 양자 모두가 협력하여 미디어 콘텐츠 파일들(122)의 데이터베이스(120)에 의지하여(aginst) 식별하기 위해 시각 미디어 콘텐츠(104)를 분석할 수 있다. 시각 미디어 콘텐츠(104)의 더욱 완전한 버전(126) 또는 식별 정보(124)는 그 후 사용자 인터페이스(130) 상에서 사용자(108)에게 제시하기 위해 에어 채널(128)을 통해 이동 디바이스(102)로 송신될 수 있다.

도 2에서, 시각 미디어 콘텐츠를 식별하기 위한 동작들(200)의 시퀀스 또는 방법론이 도시된다. 이미지가 이동 디바이스의 카메라로부터 수신된다(블록(202)). 이미지 내에 포함되는 4변형이 검출된다(블록(204)). 시각 미디어 콘텐츠를 식별하기 위하여 4변형 내에 포함되는 시각 미디어 콘텐츠가 캡쳐된다(블록(206)).

예시적인 사용에서, 사용자가 텔레비전 상에서 영화와 같은 미디어 콘텐츠를 시청 중이지만, 이동 디바이스 상의 나머지 부분을 시청하도록 선택하는 것을 고려한다. 사용자는 자신의 이동 전화의 카메라를 TV에 겨눈다(point at). 이동 디바이스는 유입(incoming) 프레임들을 프로세싱함으로써 이동 디바이스의 뷰파인더를 통해 작동하는 TV 상의 프로그래밍을 식별하도록 트리거링된다. 특히, TV 상의 이미지는 TV가 4변형이라는 배경 레버리징 예상(background leveraging anticipation)으로부터 크롭핑되고(cropped), 뷰파인더에 중앙 설정되며, 일반적으로 주변보다 더 밝다. 아마도 머신 비전 인식에 대해 예비 프로세싱되는, 캡쳐된 콘텐츠의 부분은 이 시퀀스가 어느 영화로부터의 것인지 발견하기 위하여 서버에 전송될 수 있다. 예를 들어, 그러한 시스템들은 어느 영화들로부터 어느 장면(scene)들이 추가로 검사되어야만 하는지 빠르게 발견하기 위하여 해시 테이블(hash table)을 사용할 수 있다. 해시 테이블에 대한 키(key)는 프레임들에서 발견된 컬러들의 로컬화된 히스토그램을 사용하는 것일 것이다. 예컨대, 이미지(1)의 좌측 상단 사분면(upper left quadrant)이 50% 블루 픽셀들, 30% 화이트, 및 20% 블랙을 갖고, 그 후 이것이 주어진 시간에 걸쳐 30% 블루, 및 50% 화이트 및 20% 블랙으로 변화된다면, 다른 3개 사분면들과 함께, 이 시그니쳐(signature)는 영화 데이터베이스로부터의 프레임들로부터 장면들을 좁히는데(narrow down) 사용될 것이다. 이 감소된 세트로부터, 그 후 컬러가 아닌 주파수에 기반하여 프로세스를 반복할 것이다. 상부 사분면이 주어진 시간에 700개 에지 픽셀들을 갖고, 300개 프레임들에 걸쳐 400개 에지들이 되면, 이 패턴은 세트를 추가로 감소시킬 것이다. 클립들에 대한 이 감소된 세트로부터, 시스템은 정확한 프레임으로 좁히기 위해 추출 방법에 기반하는 SIFT 또는 몇몇 다른 피쳐를 이용할 수 있다. 일단 영화의 이름 및 타임스탬프(timestamp)가 발견되면, 디바이스는 독점적(proprietary) 서비스에 연결되고, 영화 전체를 구매하고 그 후 다운로드할 수 있지만, 제목은 사용자가 현재 TV 상에서 영화(film)를 시청하고 있는 지점으로부터 스트리밍할 수 있다.

이미지 검출 방법 이외에, 마이크로폰은 TV로부터 오디오를 캡쳐하고, 미디어 콘텐츠의 결정을 보조하기 위해 해쉬 룩업 함수(hash lookup function)에서 이것을 이용하기 위하여 사용될 수 있다. 대안적으로, 이동 디바이스는 포렌식(forensic) 비디오 워터마킹을 식별하기 위하여, 로컬로 또는 원격 서버상에서 이미지 프로세싱 알고리즘들을 이용할 수 있다. 비디오 워터마킹은 타임스탬프, 클라이언트 식별자 및 콘텐츠 식별자를 포함할 수 있어, 압축 및 다수의 디지털-아날로그-디지털 변환들 이후에라도 이들 데이터의 추출을 허용한다.

다른 양상에서, 사용자가 그들의 PC, 매거진, 신문, 책 등 상에서 기사를 판독하고 있더라도, 그들의 이동 디바이스 상에서 콘텐츠에 액세스하도록 선택한다. 사용자는 콘텐츠의 사진을 찍는다. 예컨대, 카메라는 렌즈로부터 2 피트 미만의 객체(object)들 상에 초점을 맞추기 위해 매크로 모드를 사용하며, 광학적 문자 인식을 위해 충분한 해상도를 갖는다. 따라서 인식된 영숫자(alphanumeric) 문자 스트링이 탐색 엔진에 의지하여(against) 탐색될 수 있으며, 최상단 기사 매치(top article match)들이 선택을 위해 사용자 인터페이스 상에서 사용자에게 제시된다. 매칭되는 식별된 기사들은 미래의 참조를 위해 북마킹되거나 다운로드될 수 있다. 콘텐츠가 저작권 보호되고 및/또는 온라인 상에서 이용가능하지 않다면, 워터마킹 기술은 사용자가 콘텐츠에 대한 권리 소유자(rights holder)인지 여부를 결정하는데 사용될 수 있다. 워터마킹 기술이 이용되지 않지만, 콘텐츠가 여전히 저작권 보호된다면, 사용자는 그 콘텐츠에 액세스하기 위하여 콘텐츠의 물리적 카피(예를 들어, 책, 정기 간행물)로부터 가입 식별자를 입력할 수 있다.

대안적으로, 기사가 이용가능하지 않다면, 시스템은 동일한 저자로부터의 기사들 또는 토픽에 대한 유사한 기사들을 중단(pull up)할 수 있다.

하나의 예시적 양상에서, 도 3a-3c에서, 카메라에 의하여 이미지화되는 검출된 외부 디스플레이 내의 시각 미디어 콘텐츠를 캡쳐하고 식별하기 위한 동작들의 시퀀스 또는 방법론(300)이 제공된다. 사용자는 디스플레이 또는 모니터를 향해 무선 이동 디바이스의 카메라를 겨눈다(블록(302)). 사용자는 이미지 콘텐츠를 캡쳐하기 위한 사용자 제어를 선택한다(블록(304)).

일 양상에서, 이동 디바이스는 하나의 타입의 시각 미디어 콘텐츠(예를 들어, 텍스트, 그래픽 이미지, 비디오 이미지들)를 캡쳐하도록 인에이블된다. 다른 양상에서, 이동 디바이스는 어느 타입의 시각 미디어 콘텐츠가 캡쳐될지 또는 캡쳐되는지에 관한 표시를 수신할 수 있다. 추가적 양상으로서, 이동 디바이스는 수 개의 대안들 중 시각 미디어 콘텐츠의 타입을 자동적으로 결정할 수 있다. 이를 위해, 이동 디바이스는 텍스트 캡쳐에 대한 타당성 또는 의도를 결정할 수 있다(블록(306)). 만일 그렇다면, 캡쳐는 내재적 모션(inherent motion) 없이 높은 콘트라스트(contrast), 통상적으로 블랙과 화이트의 텍스트로 지시될 수 있다(블록(308)). 이동 디바이스는 이미지 캡쳐에 대한 타당성 또는 의도를 또한 결정할 수 있다(블록(310)). 만일 그렇다면, 타겟은 컬러이고, 콘트라스트가 변화될 수 있으나, 또한 내재적 모션을 갖지 않을 수 있다(블록(312)). 이동 디바이스는 또한 비디오 캡쳐에 대한 의도/타당성을 결정할 수 있다(블록(314)). 만일 그렇다면, 타겟은 내재적 모션을 가질 수 있다(블록(316)).

예시적 양상에서, 블록(317)에서, 컬러 변환 프로세스는 이들 전술한 결정들을 지원한다. 입력 색 공간, 흔히 RGB로부터 휘도-색차(Luminance-Chrominance) 공간으로 변형시키는 것은, 시스템이 이미지의 컬러의 양을 결정할 수 있기 때문에 유용할 수 있다. 연구되는 이미지의 컬러의 양은 컬러를 표시하지 않는 그들의 범위의 중간 값(예를 들어, 128)에 있는 Cb 및 Cr에 기반하여 결정될 수 있다. 대안적으로 또는 부가하여, 프린팅된 물질을 표시하는 화이트 및 블랙 또는 블루와 같은 특정 컬러들이 검출될 수 있다. 대안적으로 또는 부가하여, 이미지 또는 영숫자 콘텐츠에 따르도록(depend) 드롭핑될(dropped) 수 있는 단색 배경 컬러(solid background color)가 검출될 수 있다. 대안적으로 또는 부가하여, 특정 폰트 사이즈의 텍스트를 표시할 수 있는, 콘텐츠가 소정(some) 주기로 규칙적인 패턴을 갖는지 여부를 결정하기 위하여 가버 필터(Gabor filter)가 사용될 수 있다.

4변형 이미지 또는 비디오 소스는 감소된 해상도로 카메라 프리뷰 동안 발견될 수 있으며(블록(318)), 이는 도 3b과 관련하여 추가로 논의된다. 도 3a를 추가로 참고하여, 대안적으로, 더 높은 해상도의 최초 캡쳐를 이용하기 위한 충분한 프로세싱 능력이 존재할 수 있다. 추가적 양상에서, 사용자는 뷰-파인더를 터칭함으로써 카메라 프리뷰의 부분에 주의를 집중시키는 것을 보조할 수 있다(블록(320)). 다른 양상에서, 이동 디바이스는 인지된 소스를 디스플레이하거나, 또는 사용자 선택에 대한 후보 소스들을 디스플레이한다(블록(322)). 후자의 경우, 사용자 인터페이스는 사용자 선택을 수신하고, 이미지/비디오 소스를 결정하도록 진행한다(블록(324)). 필요로 한다면 또는 인에이블된다면, 사용자는 프롬프트되는 대로 카메라를 조준(aiming) 또는 포커싱하거나 또는 뷰 파인더를 터치함으로써 보조할 수 있다(블록(326)). 몇몇 구현들에서, 이동 디바이스는 최상의 해상도 설정들을 위해 카메라에 관심 영역(ROI)을 전송할 수 있다(블록(328)). 이동 디바이스는 이 구역으로부터 프레임(들)을 캡쳐한다(블록(330)).

캡쳐된 프레임(들)의 미디어 콘텐츠가 식별된다(블록(332)). 다양한 양상들에서, 이 식별은 이동 디바이스에 의하여, 이동 디바이스와 원격 서버 간의 분산된 프로세싱에 의하여, 또는 도 3c를 참고하여 추가로 설명되는 바와 같이 주로 원격 서버에 의하여 수행될 수 있다. 계속해서 도 3a를 참고하여, 이동 디바이스는 미디어 콘텐츠를 다운로드할 수 있다(블록(334)).

도 3b에서, 이미지 내의 4변형 이미지/비디오 소스를 발견하기 위한 예시적인 방법론(318)이 제공된다(블록(318)). 더 낮은 카메라 프리뷰 해상도를 사용하는 경우, 최초 이미지 또는 이미지들은 "n" 개의 프레임들에 걸쳐 VGA 해상도일 수 있다(모션이 없는 경우 n=1)(블록(336)).

도 3b를 추가로 참고하여, 사용자 입력이 터치되는 경우 255개 값들로 ROI 맵이 생성되며, ROI 맵은 폴오프(falloff)에 대해 블러링(blur)될 수 있다(블록(338)). 몇몇 사례에서, 검출은 디스플레이들 또는 모니터들이 룸에서의 다른 표면들보다 더 밝은 조도(level of illumination)를 갖는 경향을 이용할 수 있다. 이를 위해, 예컨대 RGB(Red-Green-Blue)에 의해 정의되는 조명(illumination)을, x보다 큰 값에 대해(예를 들어, 20% 나머지 픽셀을 달성), 최대치로 쓰레숄딩(thresholding)함으로써, "글로잉(glowing)" ROI 맵이 생성된다(블록(340)). 비디오 캡쳐가 의도되는 몇몇 사례들에서, 검출은 모션을 디스플레이하기 위하여 프레임들 간에 변화들이 존재한다는 사실을 이용할 수 있다. 이를 위해, 이전(back) "m"개의 프레임들로부터의 모든 프레임의 차에 의해 "모션" ROI 맵이 생성된다(예를 들어, m=3). 최대 델타가 지터(jitter)를 제거하는 것을 돕기 위해 레코딩될 수 있다(블록(342)). 뷰파인더로부터의 이미지는 ROI 맵들의 가중치들에 기반하여 크롭핑될 수 있다(블록(344)). 크롭핑된 이미지는 빠른(fast) 코너 검출기에 공급된다(블록(346)). 코너 포인트들(CP)은 쓰레숄드 픽셀들보다 더 가깝게(

6) 클러스터링될 수 있다(블록(348)). n × n 구역에서 전체적으로 글로잉 맵 내에 있다면, CP는 프루닝될 수 있다(블록(350)). m × m 구역 내에서의 모션이 전체적으로 글로잉 맵 내에 있다면, CP는 프루닝될 수 있다(블록(352)).

4변형 후보들은 프루닝된 CP들로부터 식별된다(블록(354)):

(i) 볼록하지 않음(각도들의 합 360°) (블록(356));

(ii) 임의의 내각 > 110° (블록(358));

(iv) 비디오 종횡비(4:3, 16:9) (블록(360));

(v) 구역 ≥ 이미지의 1/25 (블록(362));

(vi) 두개의(2) 동일한 인접 각도들 (블록(364)); 및

(vii) 깊이 발견에 기반하여 4변형 후보들을 연관시킴 (블록(365)).

따라서, 모니터 또는 디스플레이의 통상적인 형상에 연관되는 것을 표시하는 그룹핑들이 식별된다.

깊이 발견을 사용하는 후자의 양상에 관해, 초점 심도 능력들을 사용함으로써, 특정 그룹들의 코너들이 특정 깊이인 것으로 결정될 수 있다. 그에 의해, 코너들은 코너들의 후보 세트로부터 관련없는 것으로 간주된 전경(foreground) 깊이 또는 배경 깊이에 있는 것에 기반하여 프루닝될 수 있다. 깊이 정보는 이미지의 동일한 깊이 레벨에 있는 코너들의 세트들을 결정하는데 사용될 수 있다.

깊이 발견의 사용에 관한 부가적인 개시내용은 본 발명의 양수인에게 양도되고, 간행물 번호 제20100033617 A1호이며, 2008년 8월 5일자로 출원된, 일련 번호 12/185,887이고 Babak Forutanpour에 의한 공동계류중인 U.S. 특허 출원 "System and Method to Generate Depth Data Using Edge Detection"에 설명되고, 상기 출원은 명확히 인용에 의해 본원에 통합된다.

후보 네 개(4) 코너들이 마스터 리스트에 부가된다(블록(366)). 실질적으로 전체 이미지를 에워싸는 큰 잘못된(false) 4변형이 더 작은 4변형들에 가까워지게 허용되지 않도록, 마스터 리스트 내의 코너들의 세트들로부터 형성되는 4변형 형상들이 선택된다. 예컨대, 이미지의 구역의 1/5보다 더 큰 4변형은 다른 후보 4변형들에 가깝게 허용되지 않는다. 예시적 양상에서, 다른 4변형의 80%를 점유하는 임의의 4변형이 프루닝된다(블록(368)).

모니터들/디스플레이들의 통상적인 균일한 컬러들 및 경계선 형상들을 검출하는 것에 기반하여, 코너들이 프루닝될 수 있다(블록(370)). 다른 사례로, 4변형 히스토그램들의 좌측 절반부 및 우측 절반부는 매칭되어야 한다. 대안적으로 또는 부가하여, 4변형 히스토그램들의 하단 절반부 및 상단 절반부는 매칭되어야 한다. 부가적인 양상에서, 하나의 경계 면은 사용자 제어들, 오디오 스피커들, 장착 또는 지원 구조물들 등의 비대칭적 배치를 설명하기 위하여 그것의 대향 경계 면과 상이하도록 허용된다. 예시적 양상에서, 매칭은 전체 픽셀들에 대한 제한치(예를 들어, 20%)(상이할 수 있음)에 따라 한 면(side)이 다른 면으로부터 차감되는 빈드(binned) 히스토그램들에 의해 계산될 수 있다. 대안적으로, 색조 채도 명도(HSV: Hue Saturation Value)로 변환된다면, 평균 색조들은 낮은 값으로(예를 들어, 10% 내로) 제한될 수 있다. 예시적 양상에서, 자신의 경계선(폭의 1/14)이 표준 편차로부터 떨어진 1.5 값을 갖는 히스토그램을 갖는 임의의 4변형이 프루닝된다.

이 예시적인 식별에 의해, 디스플레이 또는 모니터에 대응하는 4변형이 이미지로부터 식별될 수 있다.

도 3c에서, 캡쳐된 프레임(들)의 미디어 콘텐츠를 식별하기 위한 동작의 시퀀스 또는 예시적인 방법론(332)이 제공된다. 원격 네트워크와 협력(collaborate)하기 위한 능력이 결정된다(블록(371)). 예컨대, 이 능력은 이용가능한 리소스들, 간섭, 채널 페이딩(fading), 송신 전력 제한들, 가입된 사용량 제한들 등으로 인하여 제한될 수 있다. 이들 고려사항들의 전부 또는 일부를 조정하기 위하여, 대역폭은 서버에 대한 접속을 위해 테스트될 수 있다(블록(372)). 디바이스 성능 제약들(예를 들어, 중앙 처리 장치(CPU) 속도 및 유용성, 디지털 신호 프로세싱 하드웨어/소프트웨어의 구성 등)이 결정될 수 있다(블록(374)). 대역폭을 사용하기 위한 비용 또는 사용자 선호도들이 액세스될 수 있다(블록(376)). 능력 제약은 또한 가변적인 양들의 이미지 데이터를 송신하는데 필요한 전력 또는 이미지 프로세싱을 로컬로 수행하기 위한 전력 소모 중 어느 하나에 기반한 전력 제한일 수 있다. 능력 제약은 또한 이미지 데이터를 프로세싱하고 송신하기 위한 엔드-투-엔드(end-to-end) 시간에 관련될 수 있다.

몇몇 사례들에서, 능력의 하나의 특징은 결정적 요인(determinative)이 된다. 예를 들어, 저-성능 이동 디바이스는 부가적인 디지털 이미지 프로세싱을 수행할 수 없을 수 있고, 따라서 채널 제한들과 무관하게 원본(raw) 이미지 데이터의 업로드를 필요하게 만든다.

다른 사례에서, 가능한 모드들의 세트는 디지털 이미지 프로세싱의 어느 부분들이 로컬로 또는 원격으로 수행될 수 있는지에 기반하여 결정된다. 그 후 사용자 선호도들(예를 들어, 달성하기 위한 비용), 트래픽 최적화를 위한 시스템 선호도들, 또는 디지털 이미지 프로세싱을 완료하기 위한 시간을 감소시킴으로써 사용자 경험을 향상시키는 것에 기반하여, 최적 해법을 위한 선택이 이루어질 수 있다.

예컨대, 룩업 테이블(LUT)은 미디어 콘텐츠 인식을 위한 디바이스 대 서버 분산 이미지 프로세싱을 결정하기 위해 액세스될 수 있다(블록(378)). 따라서, 일 양상에서, 로컬 프로세싱 모드가 적절한 것으로 여겨진다. 예를 들어, 매우 느린 접속이 검출되거나, 능력이 있는(capable) 디바이스가 이용가능한 것으로 결정되거나, 또는 이 모드가 선택되었다(블록(380)). n × n 기반 히스토그램 + 에지 검출 & 스케일 불변 피쳐 변환(SIFT)이 수행된다(블록(382)). 특징 벡터(feature vector)는 대역폭을 보존하기 위하여 서버로 전송된다(블록(384)).

다른 양상에서, 공유 프로세싱 모드가 적절한 것으로 여겨진다. 예를 들어, 중간 접속이 검출되거나, 로컬 및 원격 컴포넌트들이 공유 프로세싱을 위해 이용가능한 것으로 결정되거나, 또는 이 모드가 선택되었다(블록(386)). n × n 기반 히스토그램 + 에지 검출은 SIFT를 수행하지 않고 수행된다(블록(388)). 결과는 서버로 전송된다(블록(390)).

부가적인 양상에서, 원격 프로세싱 모드가 적절한 것으로 여겨진다. 예를 들어, 로컬 디바이스는 프로세싱을 수행할 수 없는 것으로 결정되거나, 빠른 접속이 이용가능한 것으로 결정되거나, 또는 이 모드가 선택되었다(블록(392)). 프로세싱 보다는, 캡쳐된 클립이 서버로 전송된다(블록(394)).

원격 서버가 임의의 나머지 프로세싱을 완료하고 미디어 콘텐츠에 대한 자신의 카탈로그에 의지하여 매칭을 수행한 이후, 이동 디바이스는 미디어 콘텐츠 매치들의 후보의 리스트를 수신한다(블록(396)). 일 양상에서, 이동 디바이스 상에 그러한 매치들을 제시하는 제약들이 고려된다. 게다가, 미디어 콘텐츠를 고유하게 식별하기 위하여 사용자로부터의 보조(예를 들어, 카메라의 부가적인 조준, 사용자 인터페이스와의 상호작용들 등)가 요구될 수 있다. 이를 위해, 매치들이 이루어지지 않았고 더 많은 미디어 콘텐츠를 캡쳐할 필요성이 존재한다는 결정이 이루어질 수 있다(블록(397)). 대안적으로 또는 부가하여, 사용자 선택을 위한 사용자 인터페이스 상의 제시에 적합한 제한된 매치들(예를 들어, 3)이 결정될 수 있다(블록(398)). 대안적으로 또는 부가하여, 많은 수의 매치들이 식별될 수 있다. 응답하여, 이동 디바이스는, 서버가 자신의 매칭에서 사용하기 위해 더 높은 해상도 버전의 캡쳐된 콘텐츠를 전송하거나 더 많은 콘텐츠를 캡쳐할 수 있다(블록(399)).

다른 예시적 양상에서, 도 4에서, 방법론(400)은 스마트폰과 같은 카메라 사용가능 통신 장치 또는 디바이스를 사용하여 이미지 분석을 수행한다. 낮은 해상도 모드에서 카메라 뷰파인더로부터 유래하는 프레임들이 저장될 수 있다(블록(402)). 대안적으로, 이미지 분석은 자동적으로 또는 수동으로 선택된 더 높은 해상도의 스냅샷 또는 일련의 스냅샷들에 대해 수행될 수 있다(블록(404)). 미디어 콘텐츠를 제시하는 외부 디스플레이 또는 모니터(예를 들어, 텔레비전 모니터)에 대응하는 뷰파인더 이미지 부분의 디스플레이를 추출하는 알고리즘이 실행된다(블록(406)). 편의를 위해, 본 혁신안의 양상들과 일치하는 다른 기술들이 사용될 수 있다는 것이 인식되어야함에도 불구하고, 이 영역은 e-북들, 텔레비전들 및 컴퓨터들에 대한 공통 디스플레이 타입으로서 액정 디스플레이(LCD)로서 표시될 수 있다.

도 5에서, 룸의 예시적인 더 낮은 해상도의 이미지(500)는 측면 관점으로부터의 디스플레이(502)를 포함한다.

추가로 도 4를 참고하여, 정확한 부분의 선택은 부분적으로, 일련의 프로세스들을, 전체적으로 로컬로, 분산되어 로컬로 그리고 원격으로, 또는 모두 원격으로 수행하는 것을 수반할 수 있다(블록(408)).

예컨대, 관심 영역(ROI)의 모든 코너들을 발견하기 위해 해리스 코너 검출기(Harris corner detector)가 구동될 수 있다(블록(410)). 발견된 코너들의 모든 치환들 및 조합들은 세트가 생성될 때까지 실행될(블록(412)) 수 있어, 이로써

(1) 해당 영역 내부의 콘텐츠가 전체 이미지의 휘도보다 훨씬 더 높은 평균 휘도를 가지며, 비율은

로서 표시된다(블록(414)).

(2) 4개 코너들을 연결하는 라인(들)은 균일하고, 색조 채도 명도(HSV) 공간에서 대략 동일한 색조이다(블록(416)). 예컨대, 모니터/디스플레이의 경계선 픽셀들이 대략적으로 또는 실질적으로 동일한 컬러이고, 대향 면들의 2개의 쌍들 또는 하나의 쌍이 대략 동일한 폭을 갖는 것에 대한 체크가 이루어진다. 하나의 예시적 양상에서, 서로의 쓰레숄드 값(예를 들어, 20%)과 RGB 매치되는 경계선 픽셀들이 결정될 수 있다. 허용가능한 경계선 두께는 LUT에 기반할 수 있다. 예를 들어, 4변형의 구역이 이미지의 1/10인 경우, 경계선은 이미지들의 x-치수들의 수평 폭의 1/30이어야 한다. 따라서, 640 × 480 이미지는 약 20 픽셀 폭인 경계선을 갖는 텔레비전인 것으로 기대될 것이다.

(3) 네 개(4) 포인트들의 관점이 눈 높이에 또는 눈 높이 아래에 있는 어떤 것의 관점과 매칭되지 않는 영역들을 프루닝한다(예를 들어, 천정 조명(ceiling light)들을 프루닝한다)(블록(418)).

도 6에서, 측면 관점으로부터의 디스플레이(602)를 포함하는 룸의 ROI 부분의 예시적인 더 낮은 해상도의 이미지(600)는, 미디어 콘텐츠(606)가 캡쳐될 수 있도록 디스플레이(602)를 자동적으로 규정하기 위한 후보들일 수 있는 다수의 코너들(604)을 검출하였다.

도 7에서, 코너 검출로부터 얻어지는 룸의 후보 픽셀들의 세트(700)는, 선택적으로 프루닝될 필요가 있는 디스플레이(706) 외부의 관련없는 포인트들(712) 및 미디어 콘텐츠(710) 내의 이미지 포인트들(708) 뿐 아니라 디스플레이(706)의 외부 및 내부 포인트들(702, 704)을 정의하는 포인트들을 포함한다.

도 4를 추가로 참고하여, LCD 디스플레이의 정확한 코너들이 발견되기 때문에, 스마트폰은 이 후 이것이 몇몇 쓰레숄드(p)보다 더 클 경우라도 관점을 최적으로 보정할 수 있다(블록(420)).

예를 들어, 쓰레숄드(p)는 대향 측방 면들의 길이들의 비율에 기반할 수 있다. 예를 들어, 측방 면들이 서로 90% 내에 있는 것을 표시하는 비율 p₁을 고려한다. 매칭 알고리즘이 캡쳐된 비디오 이미지에서의 결과적인 왜곡을 보정하지 않고 매치를 달성하도록 충분히 강건한(robust) 것으로 결정될 수 있다. 다른 예로서, 측방 면들이 서로 90%와 70% 사이인 것을 표시하는 비율 p₂를 고려한다. 이 범위에서 관점으로 인한 왜곡을 보정하기 위하여 보정이 요구될 수 있다. 부가적인 예로서, 측방 면들이, 적절한 4변형이 발견되었는지 여부에 대한 의심을 불러일으키고 보정을 방해하는, 서로에 대해 상대적으로 더욱 균형이 맞지 않음(out of scale)을 표시하는 비율 p₃을 고려한다. 사용자는 이 비직교 각도에서 포착하도록 시도하지 않는 것으로 추정된다. 상이한 쓰레숄드들이 수직 대 수평 관점으로 사용될 수 있는 것이 추가로 인식되어야 한다.

일 양상에서, 카메라의 시선(point of view)에 관한 직교 평면으로부터의 이미지의 임의의 회전이 보정될 수 있다. 평행 라인들의 쌍이 발견될 수 있고(즉, 상단/하단 또는 좌측/우측 면), 전체 이미지가 디지털적으로 회전되어, 이들 2개 라인들은 이미지에 관해 0 또는 90도가 된다(어느 쪽이든 각도는 계산된 것에 근사함).

이미지의 히스토그램은 직사각형 또는 정사각형 n × n 그리드로 생성되고, 예를 들어, n = 3이다(블록(422)).

각각의 영역에서 픽셀들의 수는 하드 또는 소프트 에지로서 계산된다(블록(424)). 다양한 정의들이 하드(선명한(sharp)) 에지들에 대해 그리고 소프트(흐릿한(blurry)) 에지들에 대해 이용될 수 있다. 예를 들어, "하드 에지" 픽셀은, 떨어진(away) 최대(up to) n개 픽셀들(예를 들어, 모든 방향들에서 n = 2)의 그의 이웃 값들이 픽셀들 자신의 값보다 훨씬 더 크거나 또는 더 작은 값을 갖는, 예를 들어, 쓰레숄드 > 120인 픽셀이다. 그것의 값이 서로 상이한 값들을 갖는 2개의 이웃들 사이에 있다면, 픽셀은 "소프트 에지" 상에 있다. 이미지에서의 변화의 선명도(sharpness)는 깊이에서의 불연속성들, 표면 배향에서의 불연속성들, 물질 특성들에서의 변화들, 또는 장면 조명에서의 변동들을 표시할 수 있다.

n² 레드 그린 블루(RGB) 값들 및 하드 + 소프트 에지 값들을 데이터 페이로드로 조합하고, 송신한다(블록(426)). 컬러 정보뿐 아니라, 하드/소프트 픽셀들의 수를 서버로 전송함으로써, 서버는 유사한 특징들을 갖는 블록들에 대한 서버의 영화들의 라이브러리로부터 프레임들을 스캔하기 위하여 이 정보를 사용할 수 있다. 요약하면, 단지 컬러 정보만을 전송하는 것은 불충분할 수 있다. 이것은 블록이 얼마나 많은 레드/그린/블루를 갖는지 아는데 충분하지 않을 수 있다. 향상된 필터는 이미지 블록에서 더 많은 RGB가 존재하는 경우에 이용될 수 있다. 예컨대, 또한 이 블록이 하드 에지 상에 45개 픽셀들을 갖고 소프트 에지 상에 39개 픽셀들을 갖는다는 것을 전송함으로써, 후보들의 리스트는 좁혀질 수 있다. 송신 또는 프로세싱 제한들이 없는 이상적인 상황에서, 전체 블록은 서버가 2개 이미지들을 프레임 단위로(frame by frame) 차감할 수 있도록, 전송될 수 있다.

미디어 콘텐츠(예를 들어, 영화, 텔레비전, 뉴스 기사, 라디오 방송, 팟캐스트(podcast) 프로그램 등)는 이동 디바이스 상의 지속적인 제시를 위해 식별되고 포맷팅된다(블록(428)). 사용자가 소모할 불충분한 권리를 갖는다면, 데이터 권리 가입(data rights subscription)이 용이해질 수 있다(블록(430)).

전술한 내용에 의해, 이동 디바이스를 통한 이 콘텐츠의 식별, 배치 및 액세스의 수고스러운 프로세스 없이, 사용자가 이동 디바이스를 통해 특정 미디어 콘텐츠를 소모하는 것을 계속하기 위한 편리한 방법이 제공된다.

도 8을 참고하여, 시각 미디어 콘텐츠를 식별하기 위한 시스템(800)이 예시된다. 예를 들어, 시스템(800)은 적어도 부분적으로 사용자 장비(UE) 내에 상주할 수 있다. 시스템(800)이 기능 블록들을 포함하는 것으로서 표현된다는 것이 인식될 것이며, 상기 기능 블록들은 컴퓨팅 플랫폼, 프로세서, 소프트웨어 또는 이들의 조합(예를 들어, 펌웨어)에 의하여 구현되는 기능들을 나타내는 기능 블록들일 수 있다. 시스템(800)은 결합하여 작동할 수 있는 전기적 컴포넌트들의 논리적 그룹핑(802)을 포함한다. 예컨대, 논리적 그룹핑(802)은 이동 디바이스의 카메라로부터 이미지를 수신하기 위한 전기적 컴포넌트(804)를 포함할 수 있다. 게다가, 논리적 그룹핑(802)은 이미지 내에 포함되는 4변형을 검출하기 위한 전기적 컴포넌트(806)를 포함할 수 있다. 다른 예로서, 논리적 그룹핑(802)은 시각 미디어 콘텐츠를 식별하기 위한 4변형 내에 포함되는 시각 미디어 콘텐츠를 캡쳐하기 위한 전기적 컴포넌트(808)를 포함할 수 있다. 부가적으로, 시스템(800)은 전기적 컴포넌트들(804-808)과 연관되는 기능들을 실행하기 위한 명령들을 보유하는 메모리(820)를 포함할 수 있다. 메모리(820) 외부에 있는 것으로서 도시되나, 전기적 컴포넌트들(804-808) 중 하나 또는 그 초과가 메모리(820) 내에 존재할 수 있음이 이해될 것이다.

도 9에서, 시각 미디어 콘텐츠를 식별하기 위한 장치(902)가 도시된다. 이동 디바이스의 카메라로부터 이미지를 수신하기 위한 수단(904)이 제공된다. 이미지 내에 포함되는 4변형을 검출하기 위한 수단(906)이 제공된다. 시각 미디어 콘텐츠를 식별하기 위하여 4변형 내에 포함되는 시각 미디어 콘텐츠를 캡쳐하기 위한 수단(908)이 제공된다.

도 10은 히스토그램, 코너 검출기 및 스케일 불변 피쳐 변환(SIFT) 생성기(1064)를 포함하는 특정 이동 디바이스(1000)의 블록도이다. 이동 디바이스(1000)는 휴대용 전자 디바이스로 구현될 수 있으며, 메모리(1032)에 커플링되는, 디지털 신호 프로세서(DSP)와 같은 신호 프로세서(1010)를 포함한다. 히스토그램, 코너 검출기 및 스케일 불변 피쳐 변환(SIFT) 생성기(1064)는 신호 프로세서(1010)에 포함된다. 예시적인 예에서, 코너 검출기 및 SIFT 생성기(1064)는 도 1-7에 따라 또는 그들의 임의의 조합에 따라 설명되는 바와 같이 동작한다.

카메라 인터페이스(1068)는 신호 프로세서(1010)에 커플링되고, 또한 비디오 카메라(1070)와 같은 카메라에 커플링된다. 카메라 인터페이스(1068)는 자동적으로 또는 DSP(1010)에 의해 생성된 신호에 응답하여, 다른 이미지 캡쳐 입력 또는 사용자로부터의 셔터 제어(shutter control)를 "클릭하는 것(clicking)"과 같은 단일 이미지 캡쳐 명령에 응답하여, 장면의 다수의 이미지들을 취하도록 적응될 수 있다. 디스플레이 제어기(1026)는 신호 프로세서(1010)에 그리고 디스플레이 디바이스(1028)에 커플링된다. 코더/디코더(CODEC)(1034)는 또한 신호 프로세서(1010)에 커플링될 수 있다. 스피커(1036) 및 마이크로폰(1038)은 CODEC(1034)에 커플링될 수 있다. 무선 인터페이스(1040)는 신호 프로세서(1010)에 그리고 무선 안테나(1042)에 커플링될 수 있다.

신호 프로세서(1010)는 이전에 설명된 바와 같이 이웃 데이터 포인트들 간의 강도(intensity) 값들의 변화들에 기반하여, 이미지 데이터의 코너들을 검출하도록 적응된다. 신호 프로세서(1010)는 또한 이전에 설명된 바와 같이, 이미지 데이터 세트들로 도출되는 깊이 맵 또는 다른 형태의 깊이 데이터와 같은 이미지 데이터(1046)를 생성하도록 적응된다. 초점 심도 능력들을 사용함으로써, 특정 그룹들의 코너들이 특정 깊이인 것으로 결정될 수 있다. 그에 의해, 코너들은 코너들의 후보 세트로부터 관련 없는 것으로 여겨지는 전경 깊이 또는 배경 깊이에 있는 것에 기반하여, 프루닝될 수 있다. 예시적 양상에서, 글로우 및 모션 ROI 맵들을 사용하는 것 이외에, 카메라는 객체들이 흐릿하거나 선명한 경우에 렌즈를 스위핑(sweep)하여 포커스 레벨을 찾을(look for) 수 있다. 이 정보에 기반하여, 에지들이 없는지, 소프트 에지들이 존재하는지, 또는 하드 에지들이 존재하는지 여부에 관한 결정들이 이루어질 수 있다. 동일한 깊이에서의 코너들은 동일 평면(coplanar)인 것으로 여겨질 수 있다. 대안적으로, 카메라에 관해 수직하지 않은 동일 평면인 포인트들을 결정하기 위하여 부분적으로 깊이 정보에 기반하여 코너들에 대한 3-차원 좌표들이 결정될 수 있다.

이미지 데이터는 비디오 카메라(1070)로부터의 비디오 데이터, 안테나(1042)를 통한 무선 송신으로부터의 또는 예시적 비제한적 예들로서, 범용 직렬 버스(USB) 인터페이스(미도시)를 통해 커플링되는 외부 디바이스와 같은 다른 소스들로부터의 이미지 데이터를 포함할 수 있다.

디스플레이 제어기(1026)는 프로세싱된 이미지 데이터를 수신하도록 그리고 프로세싱된 이미지 데이터를 디스플레이 디바이스(1028)에 제공하도록 구성된다. 게다가, 메모리(1032)는 프로세싱된 이미지 데이터를 수신하고 저장하도록 구성될 수 있으며, 무선 인터페이스(1040)는 안테나(1042)를 통한 송신을 위해 프로세싱된 이미지 데이터를 수신하도록 구성될 수 있다.

특정 실시예에서, 신호 프로세서(1010), 디스플레이 제어기(1026), 메모리(1032), CODEC(1034), 무선 인터페이스(1040), 및 카메라 인터페이스(1068)는 시스템-인-패키지(system-in-package) 또는 시스템-온-칩(system-on-chip) 디바이스(1022)에 포함된다. 특정 실시예에서, 입력 디바이스(1030) 및 전력 공급부(1044)는 이동 시스템-온-칩 디바이스(1022)에 커플링된다. 게다가, 특정 실시예에서, 도 10에 예시된 바와 같이, 디스플레이 디바이스(1028), 입력 디바이스(1030), 스피커(1036), 마이크로폰(1038), 무선 안테나(1042), 비디오 카메라(1070), 및 전력 공급부(1044)는 시스템-온-칩 디바이스(1022) 외부에 있다. 그러나 디스플레이 디바이스(1028), 입력 디바이스(1030), 스피커(1036), 마이크로폰(1038), 무선 안테나(1042), 비디오 카메라(1070), 및 전력 공급부(1044) 각각은 인터페이스 또는 제어기와 같은 시스템-온-칩 디바이스(1022)의 컴포넌트에 커플링될 수 있다.

예시적 양상에서, 이동 디바이스는 미디어 콘텐츠 식별 및 전달을 수행하기 위한 다중 입력 다중 출력(MIMO) 셀룰러 통신 능력을 이용할 수 있다. 예시적 양상에서, MIMO 시스템은 데이터 송신을 위해 다수(N_T)의 송신 안테나들 및 다수(N_R)의 수신 안테나들을 이용한다. N_T개의 송신 안테나들 및 N_R개의 수신 안테나들에 의해 형성되는 MIMO 채널은 N_S개의 독립적인 채널들로 분해될 수 있으며, 이러한 독립적인 채널들은 또한 공간 채널들로 지칭되고, 여기서 N_S≤min{N_T, N_R}이다. N_S개의 독립적인 채널들 각각은 디멘젼(dimension)에 대응한다. MIMO 시스템은 다수의 송신 및 수신 안테나들에 의해 생성되는 추가적인 디멘져널리티(dimensionality)들이 이용되는 경우에, 향상된 성능(예를 들어, 더 높은 스루풋 및/또는 더 큰 신뢰성)을 제공할 수 있다.

MIMO 시스템은 시분할 듀플렉스("TDD") 및 주파수 분할 듀플렉스("FDD")를 지원할 수 있다. TDD 시스템에서, 순방향 및 역방향 링크 송신들은 동일한 주파수 영역 상에 존재하며, 그 결과 상호성(reciprocity) 원리가 역방향 링크 채널로부터 순방향 링크 채널의 추정을 허용한다. 이것은 다수의 안테나들이 액세스 포인트에서 이용가능할 때 액세스 포인트가 순방향 링크 상의 송신 빔-형성(beam-forming) 이득을 추출하는 것을 가능하게 한다.

본 명세서의 교시들은 적어도 하나의 다른 노드와 통신하기 위한 다양한 컴포넌트들을 이용하는 노드(예를 들어, 디바이스)로 통합될 수 있다. 도 11은 노드들 사이에 통신을 용이하게 하기 위하여 이용될 수 있는 수 개의 샘플 컴포넌트들을 도시한다. 구체적으로 말하면, 도 11은 MIMO 시스템(1100)의 무선 디바이스(1110)(예를 들어, 액세스 포인트) 및 무선 디바이스(1150)(예를 들어, 액세스 단말)를 예시한다. 디바이스(1110)에서, 다수의 데이터 스트림들에 대한 트래픽 데이터가 데이터 소스(1112)로부터 송신("TX") 데이터 프로세서(1114)로 제공된다.

몇몇 양상들에서, 각각의 데이터 스트림은 각각의 송신 안테나를 통해 송신된다. TX 데이터 프로세서(1114)는 코딩된 데이터를 제공하기 위해 각각의 데이터 스트림에 대하여 선택된 특정한 코딩 방식에 기반하여 그 각각의 데이터 스트림에 대한 트래픽 데이터를 포맷팅, 코딩 및 인터리빙한다.

각각의 데이터 스트림에 대한 코딩된 데이터는 OFDM 기법들을 이용하여 파일럿 데이터와 멀티플렉싱될 수 있다. 파일럿 데이터는 통상적으로 알려진 방식으로 프로세싱되는 알려진 데이터 패턴이며, 채널 응답을 추정하기 위해 수신기 시스템에서 사용될 수 있다. 그 후 각각의 데이터 스트림에 대한 멀티플렉싱된 파일럿 및 코딩된 데이터는 변조 심볼들을 제공하기 위해 그 데이터 스트림에 대하여 선택되는 특정한 변조 방식(예를 들어, BPSK, QPSK, M-PSK 또는 M-QAM)에 기반하여 변조(즉, 심볼 매핑)된다. 각각의 데이터 스트림에 대한 데이터 레이트, 코딩 및 변조는 프로세서(1130)에 의해 수행되는 명령들에 의해 결정될 수 있다. 데이터 메모리(1132)는 디바이스(1110)의 프로세서(1130) 또는 다른 컴포넌트들에 의해 사용되는 프로그램 코드, 데이터 및 다른 정보를 저장할 수 있다.

그 후 모든 데이터 스트림들에 대한 변조 심볼들은 TX MIMO 프로세서(1120)로 제공되며, TX MIMO 프로세서(1120)는 (예를 들어, OFDM에 대하여) 변조 심볼들을 추가적으로 프로세싱할 수 있다. 그 후 TX MIMO 프로세서(1120)는 N_T개의 변조 심볼 스트림들을 각각 송신기(TMTR) 및 수신기(RCVR)를 갖는 N_T개의 트랜시버들("XCVR")(1122a 내지 1122t)로 제공한다. 몇몇 양상들에서, TX MIMO 프로세서(1120)는 데이터 스트림들의 심볼들 및 심볼을 송신하고 있는 안테나에 빔-형성 가중치들을 적용한다.

각각의 트랜시버(1122a-1122t)는 하나 또는 그 초과의 아날로그 신호들을 제공하기 위해 각각의 심볼 스트림을 수신하여 프로세싱하고, MIMO 채널을 통한 송신에 적합한 변조된 신호를 제공하기 위해 아날로그 신호들을 추가적으로 조절(예를 들어, 증폭, 필터링 및 업컨버팅)한다. 그 후 트랜시버들(1122a 내지 1122t)로부터의 N_T개의 변조된 신호들은 각각 N_T개의 안테나들(1124a 내지 1124t)로부터 송신된다.

디바이스(1150)에서, 송신되는 변조된 신호들은 N_R개의 안테나들(1152a 내지 1152r)에 의해 수신되고 각각의 안테나(1152a-1152r)로부터 수신된 신호는 각각의 트랜시버("XCVR")(1154a 내지 1154r)로 제공된다. 각각의 트랜시버(1154a-1154r)는 각각의 수신된 신호를 조절(예를 들어, 필터링, 증폭 및 다운컨버팅)하고, 조절된 신호를 디지털화하여 샘플들을 제공하고, 대응하는 "수신된" 심볼 스트림을 제공하기 위해 상기 샘플들을 추가적으로 프로세싱한다.

그 후 수신("RX") 데이터 프로세서(1160)는 N_T개의 "검출된" 심볼 스트림들을 제공하기 위해, 특정한 수신기 프로세싱 기법에 기반하여 N_R개의 트랜시버들(1154a-1154r)로부터 N_R개의 수신된 심볼 스트림들을 수신하고 프로세싱한다. 그 다음에 RX 데이터 프로세서(1160)는 데이터 스트림에 대한 트래픽 데이터를 복원하기 위해 각각의 검출된 심볼 스트림을 복조하고, 디인터리빙하고, 디코딩한다. RX 데이터 프로세서(1160)에 의한 프로세싱은 디바이스(1110)에서 TX MIMO 프로세서(1120) 및 TX 데이터 프로세서(1114)에 의해 수행되는 프로세싱과 상보적(complementary)이다.

프로세서(1170)는 어느 프리-코딩(pre-coding) 행렬을 사용할 것인지를 주기적으로 결정한다. 프로세서(1170)는 행렬 인덱스 부분 및 랭크(rank) 값 부분을 포함하는 역방향 링크 메시지를 공식화(formulate)한다. 데이터 메모리(1172)는 디바이스(1150)의 프로세서(1170) 또는 다른 컴포넌트들에 의해 사용되는 프로그램 코드, 데이터 및 다른 정보를 저장할 수 있다.

역방향 링크 메시지는 통신 링크 및/또는 수신된 데이터 스트림에 관한 다양한 타입들의 정보를 포함할 수 있다. 그 후 역방향 링크 메시지는 TX 데이터 프로세서(1138)에 의해 프로세싱되고, 변조기(1180)에 의해 변조되고, 트랜시버들(1154a 내지 1154r)에 의해 조정되고, 디바이스(1110)로 다시 전송되며, 상기 TX 데이터 프로세서(1138)는 또한 데이터 소스(1136)로부터의 다수의 데이터 스트림들에 대한 트래픽 데이터를 수신한다.

디바이스(1110)에서, 디바이스(1150)에 의해 송신된 역방향 링크 메시지를 추출하기 위해, 디바이스(1150)로부터의 변조된 신호들은 안테나들(1124a-1124t)에 의해 수신되고, 트랜시버들(1122a-1122t)에 의해 조절되고, 복조기("DEMOD")(1140)에 의해 복조되고, RX 데이터 프로세서(1142)에 의해 프로세싱된다. 그 후 프로세서(1130)는 빔-형성 가중치들을 결정하기 위해 어느 프리-코딩 행렬을 사용할 것인지 결정하고, 그 후 추출된 메시지를 프로세싱한다.

도 11은 또한 통신 컴포넌트들이 간섭의 존재 하에 이미지 데이터 통신을 위한 하나 또는 그 초과의 컴포넌트들을 포함할 수 있음을 예시한다. 예를 들어, 간섭("INTER.") 제어 컴포넌트(1190)는 다른 디바이스(예를 들어, 디바이스(1150))로/로부터 신호들을 전송/수신하기 위하여 디바이스(1110)의 다른 컴포넌트들 및/또는 프로세서(1130)와 협력할 수 있다. 유사하게, 간섭 제어 컴포넌트(1192)는 다른 디바이스(예를 들어, 디바이스(1110))로/로부터 신호들을 전송/수신하기 위하여 디바이스(1150)의 프로세서(1170) 및/또는 다른 컴포넌트들과 협력할 수 있다. 각각의 디바이스(1110 및 1150)에 대하여, 설명된 컴포넌트들 중 둘 또는 그 초과의 것의 기능이 단일 컴포넌트에 의해 제공될 수 있음이 인식되어야 한다. 예를 들어, 단일 프로세싱 컴포넌트는 간섭 제어 컴포넌트(1190) 및 프로세서(1130)의 기능을 제공할 수 있으며, 단일 프로세싱 컴포넌트는 간섭 제어 컴포넌트(1192) 및 프로세서(1170)의 기능을 제공할 수 있다.

도 12를 참고하여, 청구된 내용의 다양한 양상들을 구현하기 위한 예시적인 컴퓨팅 환경(1200)은 컴퓨터(1212)를 포함한다. 컴퓨터(1212)는 프로세싱 유닛(1214), 시스템 메모리(1216), 및 시스템 버스(1218)를 포함한다. 시스템 버스(1218)는 시스템 메모리(1216)를 포함하는(그러나 이에 제한되는 것은 아님) 시스템 컴포넌트들을 프로세싱 유닛(1214)에 커플링한다. 프로세싱 유닛(1214)은 다양한 이용가능한 프로세서들 중 임의의 것일 수 있다. 듀얼 마이크로프로세서들 및 다른 멀티프로세서 아키텍쳐들은 또한 프로세싱 유닛(1214)으로서 이용될 수 있다.

시스템 버스(1218)는 메모리 버스 또는 메모리 제어기, 주변 장치 버스 또는 외부 버스, 및/또는 ISA(Industrial Standard Architecture), MSA(Micro-Channel Architecture), EISA(Extended ISA), IDE(Intelligent Drive Electronics), VLB(VESA Local Bus), PCI(Peripheral Component Interconnect), 카드 버스, USB(Universal Serial Bus), AGP(Advanced Graphics Port), PCMCIA(Personal Computer Memory Card International Association bus), 파이어와이어(IEEE 1294) 및 SCSI(Small Computer Systems Interface)를 포함하는(그러나 이에 제한되는 것은 아님), 임의의 광범위한 이용가능한 버스 아키텍쳐들을 사용하는 로컬 버스를 포함하는 수 개의 타입들의 버스 구조물(들) 중 임의의 것일 수 있다.

시스템 메모리(1216)는 휘발성 메모리(1220) 및 비휘발성 메모리(1222)를 포함한다. 예컨대 스타트업(startup) 동안, 컴퓨터(1212) 내의 엘리먼트들 간에 정보를 전달하기 위한 기본 루틴들을 포함하는, 기본 입력/출력 시스템(BIOS: basic input/output system)이 비휘발성 메모리(1222)에 저장된다. 제한이 아닌 예시로서, 비휘발성 메모리(1222)는 판독 전용 메모리(ROM), 프로그램가능 ROM(PROM), 전기적 프로그램가능 ROM(EPROM), 전기적 소거가능 프로그램가능 ROM(EEPROM), 또는 플래시 메모리를 포함할 수 있다. 휘발성 메모리(1220)는 외부 캐시 메모리의 역할을 하는 랜덤 액세스 메모리(RAM)를 포함한다. 제한이 아닌 예시로서, RAM은 정적 RAM(SRAM), 동적 RAM(DRAM), 동기식 DRAM(SDRAM), 더블 데이터 레이트 SDRAM(DDR SDRAM), 향상된 SDRAM(ESDRAM), 싱크링크 DRAM(SLDRAM), 램버스 직접 RAM(RDRAM), 직접 램버스 동적 RAM(DRDRAM), 및 램버스 동적 RAM(RDRAM)과 같은 다수의 형태들로 이용가능하다.

컴퓨터(1212)는 또한 이동식(removable)/비-이동식(non-removable), 휘발성/비휘발성 컴퓨터 저장 매체를 포함한다. 도 12는 예를 들어, 디스크 저장소(1224)를 예시한다. 디스크 저장소(1224)는 자기 디스크 드라이브, 플로피 디스크 드라이브, 테이프 드라이브, 재즈(Jaz) 드라이브, 집(zip) 드라이브, LS-100 드라이브, 플래시 메모리 카드, 또는 메모리 스틱과 같은 디바이스들을 포함한다(그러나 이에 제한되는 것은 아님). 게다가, 디스크 저장소(1224)는 저장 매체를 별도로 포함하거나, 또는 저장 매체를 광학 디스크 드라이브, 예컨대, 콤팩트 디스크 ROM 디바이스(CD-ROM), CD 레코딩가능 드라이브(CD-R 드라이브), CD 재기록가능 드라이브(CD-RW 드라이브) 또는 디지털 다목적 디스크 ROM 드라이브(DVD-ROM)를 포함하는(그러나 이에 제한되는 것은 아님) 다른 저장 매체와 조합하여 포함할 수 있다. 시스템 버스(1218)로의 디스크 저장 디바이스들(1224)의 연결을 용이하게 하기 위하여, 이동식 또는 비-이동식 인터페이스는 통상적으로 인터페이스(1226)로서 사용된다.

도 12는 적절한 작동 환경(1200)에서 설명되는 기본적 컴퓨터 리소스들과 사용자들 간에 매개물(intermediary)의 역할을 하는 소프트웨어를 설명한다는 것이 인식될 것이다. 그러한 소프트웨어는 운영 체제(1228)를 포함한다. 디스크 저장소(1224) 상에 저장될 수 있는 운영 체제(1228)는 컴퓨터 시스템(1212)의 제어 및 리소스들을 할당하는 역할을 한다. 시스템 애플리케이션들(1230)은 시스템 메모리(1216)에 또는 디스크 저장소(1224) 상에 저장된 프로그램 데이터(1234) 및 프로그램 모듈들(1232)을 통한 운영 체제(1228)에 의한 리소스들의 관리를 이용한다. 청구된 내용이 다양한 운영 체제들 또는 운영 체제의 조합들로 구현될 수 있음이 인식될 것이다.

사용자는 입력 디바이스(들)(1236)를 통해 컴퓨터(1212)로 명령들 또는 정보를 입력한다. 입력 디바이스들(1236)은 마우스, 트랙볼, 스타일러스, 터치 패드, 키보드, 마이크로폰, 조이스틱, 게임 패드, 위성 안테나, 스캐너, TV 튜너 카드, 디지털 카메라, 디지털 비디오 카메라, 웹 카메라 등과 같은 포인팅 디바이스를 포함한다(그러나 이에 제한되는 것은 아님). 이들 그리고 다른 입력 디바이스들은 인터페이스 포트(들)(1238)를 경유하여 시스템 버스(1218)를 통해 프로세싱 유닛(1214)에 연결된다. 인터페이스 포트(들)(1238)는 예를 들어, 직렬 포트, 병렬 포트, 게임 포트 및 유니버셜 직렬 버스(USB)를 포함한다. 출력 디바이스(들)(1240)는 입력 디바이스(들)(1236)와 동일한 타입의 포트들 중 일부를 사용한다. 따라서, 예를 들어, USB 포트는 컴퓨터(1212)에 입력을 제공하고, 컴퓨터(1212)로부터의 정보를 출력 디바이스(1240)로 출력하는데 사용될 수 있다. 출력 어댑터(1242)는 다른 출력 디바이스들(1240) 중에서도, 특별한 어댑터들을 필요로 하는, 모니터들, 스피커들 및 프린터들과 같은 몇몇 출력 디바이스들(1240)이 존재함을 예시하기 위해 제공된다. 출력 어댑터들(1242)은, 제한이 아닌 예시로서, 출력 디바이스(1240)와 시스템 버스(1218) 사이에 접속 수단을 제공하는 비디오 및 사운드 카드들을 포함한다. 다른 디바이스들 및/또는 디바이스들의 시스템들이 원격 컴퓨터(들)(1244)와 같이 입력 능력 및 출력 능력 양자 모두를 제공함이 유념되어야 한다.

컴퓨터(1212)는 원격 컴퓨터(들)(1244)와 같은 하나 또는 그 초과의 원격 컴퓨터들에 대한 논리적 접속들을 사용하는 네트워킹된 환경에서 작동할 수 있다. 원격 컴퓨터(들)(1244)는 개인용 컴퓨터, 서버, 라우터, 네트워크 PC, 워크스테이션, 마이크로프로세서 기반 어플라이언스, 피어 디바이스, 또는 다른 공통 네트워크 노드 등일 수 있으며, 통상적으로 컴퓨터(1212)에 관하여 설명된 엘리먼트들 중 다수 또는 그들 전부를 포함한다. 간결성을 목적으로, 단지 메모리 저장 디바이스(1246)가 원격 컴퓨터(들)(1244)와 함께 예시된다. 원격 컴퓨터(들)(1244)는 논리적으로 네트워크 인터페이스(1248)를 통해 컴퓨터(1212)에 연결되고, 그 후 물리적으로 통신 접속부(1250)를 통해 연결된다. 네트워크 인터페이스(1248)는 로컬-영역 네트워크들(LAN) 및 광역 네트워크들(WAN)과 같은 유선 및/또는 무선 통신 네트워크들을 포함한다. LAN 기술들은 광섬유 분산 데이터 인터페이스(FDDI: Fiber Distributed Data Interface), 동선 분산 데이터 인터페이스(CDDI: Copper Distributed Data Interface), 이더넷, 토큰 링 등을 포함한다. WAN 기술들은 포인트-투-포인트 링크들, 통합 서비스 디지털 네트워크들(ISDN: Integrated Services Digital Networks) 및 그에 대한 변형들과 같은 회선 교환 네트워크들, 패킷 교환망들, 및 디지털 가입자 회선들(DSL)을 포함한다(그러나 이에 제한되는 것은 아님).

통신 접속부(들)(1250)는 네트워크 인터페이스(1248)를 버스(1218)에 연결하는데 이용되는 하드웨어/소프트웨어를 지칭한다. 명확성의 예시를 위해 통신 접속부(1250)가 컴퓨터(1212) 내부에 도시되나, 통신 접속부(1250)는 또한 컴퓨터(1212) 외부에 있을 수도 있다. 단지 예시를 목적으로, 네트워크 인터페이스(1248)로의 접속을 위해 필요한 하드웨어/소프트웨어는 내부 및 외부 기술들, 예컨대, 레귤러 전화 그레이드 모뎀(regular telephone grade modem)들, 케이블 모뎀들 및 DSL 모뎀들을 포함하는 모뎀들, ISDN 어댑터들, 및 이더넷 카드들을 포함한다.

본 명세서에 설명된 것의 변형들, 수정 및 다른 구현들은 청구된 바와 같은 개시물의 진의 및 범위를 벗어나지 않고 본 기술분야의 당업자들에게 떠오를 것이다. 따라서, 개시물은 앞선 예시적 설명에 의해서가 아니라, 그 대신 뒤따르는 청구항들의 진의 및 범위에 의해서 정의될 것이다.

본 명세서의 교시는 광범위한 형태들로 구체화될 수 있고, 본 명세서에 개시된 임의의 특정 구조 또는 기능은 단지 전형적인 것임이 명백해야 한다. 본 명세서의 교시들에 기반하여, 본 기술분야의 당업자는 본 명세서에 개시된 일 양상이 다른 양상들과 독립적으로 구현될 수 있고, 이들 양상들 중 둘 또는 그 초과가 다양한 방식들로 조합될 수 있다는 것을 인식해야 한다. 예를 들어, 본 명세서에 진술된 양상들 중 임의의 수의 양상들을 사용하여 장치가 구현될 수 있거나, 방법이 실행될 수 있다. 게다가, 본 명세서에 진술된 양상들 중 하나 또는 그 초과에 부가하여, 또는 그들을 제외하고, 다른 구조 또는 기능을 사용하여 장치가 구현될 수 있거나 방법이 실행될 수 있다. 일 예로서, 본 명세서에 설명된 방법들, 디바이스들, 시스템들 및 장치들 중 다수는 이동 통신 환경에서 동적 질의들 및 권고(recommendation)들을 제공하는 것의 맥락에서 설명된다. 본 기술분야의 당업자는 유사한 기법들이 다른 통신 및 비-통신 환경들에 마찬가지로 적용될 수 있음을 인식해야 한다.

본 개시물에서 사용되는 바와 같이, 용어들 "콘텐츠" 및 "객체들"은, 임의의 타입의 애플리케이션, 멀티미디어 파일, 이미지 파일, 실행가능물(executable), 프로그램, 웹 페이지, 스크립트, 도큐먼트, 프리젠테이션, 메시지, 데이터, 메타-데이터, 또는 디바이스 상에서 렌더링되거나, 프로세싱되거나, 또는 실행될 수 있는 임의의 다른 타입의 미디어 또는 정보를 설명하는데 사용된다.

본 개시물에서 사용되는 바와 같이, 용어들 "컴포넌트", "시스템", "모듈" 등은 컴퓨터-관련 엔티티, 하드웨어, 소프트웨어, 실행중인 소프트웨어, 펌웨어, 미들웨어, 마이크로코드, 또는 이들의 임의의 조합 중 어느 하나를 지칭하도록 의도된다. 예를 들어, 컴포넌트는 프로세서 상에서 실행되는 프로세스, 프로세서, 객체, 실행가능물(executable), 실행 스레드, 프로그램 또는 컴퓨터일 수 있다(그러나 이에 제한되는 것은 아님). 하나 또는 그 초과의 컴포넌트들은 프로세스 또는 실행 스레드 내에 상주할 수 있으며, 컴포넌트는 하나의 컴퓨터 상에 로컬화되거나 또는 둘 또는 그 초과의 컴퓨터들 사이에 분산될 수 있다. 더욱이, 이들 컴포넌트들은 다양한 데이터 구조들이 저장된 다양한 컴퓨터 판독가능 매체들로부터 실행될 수 있다. 컴포넌트들은 하나 또는 그 초과의 데이터 패킷들(예를 들면, 로컬 시스템에서, 분산 시스템에서 또는 신호에 의한 다른 시스템들과의 네트워크(예를 들어, 인터넷)를 통해 다른 컴포넌트와 상호 작용하는 하나의 컴포넌트로부터의 데이터)을 갖는 신호에 따라 로컬 또는 원격 프로세스들에 의해 통신할 수 있다. 부가적으로, 본 명세서에 설명된 시스템들의 컴포넌트들은 그것과 관련하여 설명된 다양한 양상들, 목적들, 장점들 등을 달성하는 것을 용이하게 하기 위하여 부가적인 컴포넌트들에 의해 재배열되거나 보완될 수 있고, 본 기술분야의 당업자에 의하여 인식될 바와 같이, 주어진 도면에서 진술되는 정확한 구성들로 제한되지 않는다.

부가적으로, 본 명세서에 개시된 양상들과 관련하여 설명된 다양한 예시적인 로직들, 논리 블록들, 모듈들 및 회로들은, 범용 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그래밍가능한 게이트 어레이(FPGA) 또는 다른 프로그래밍가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들 또는 본 명세서에 설명되는 기능들을 수행하도록 설계된, 이들의 임의의 조합을 통해 구현되거나 또는 수행될 수 있다. 범용 프로세서는 마이크로프로세서일 수 있으나, 대안적으로 프로세서는 임의의 기존의 프로세서, 제어기, 마이크로제어기 또는 상태 머신일 수 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들어, DSP와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 연결된 하나 또는 그 초과의 마이크로프로세서들 또는 임의의 다른 적절한 구성으로서 구현될 수 있다. 부가적으로, 적어도 하나의 프로세서는 본 명세서에 설명된 작동들 또는 동작들 중 하나 또는 그 초과를 수행하도록 동작가능한 하나 또는 그 초과의 모듈들을 포함할 수 있다.

게다가, 본 명세서에 설명된 다양한 양상들 또는 피쳐들은 표준 프로그래밍 또는 엔지니어링 기법들을 사용하는 방법, 장치, 또는 제품(article of manufacture)으로서 구현될 수 있다. 더욱이, 본 명세서에 개시된 양상들과 관련하여 설명되는 방법 또는 알고리즘의 작동들 또는 동작들은 직접적으로 하드웨어로 구현되거나, 프로세서에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이 둘의 조합으로 구현될 수 있다. 부가적으로, 몇몇 양상들에서, 방법 또는 알고리즘의 작동들 또는 동작들은 컴퓨터 프로그램 물건에 통합될 수 있는, 컴퓨터 판독가능 매체 또는 기계 판독가능 매체 상에 명령들 또는 코드들 중 적어도 하나 또는 이들의 임의의 조합 또는 이들의 세트로서 상주할 수 있다. 더욱이, 본 명세서에서 사용되는 바와 같은 "제품"이라는 용어는 임의의 컴퓨터-판독가능 디바이스, 캐리어 또는 매체로부터 액세스 가능한 컴퓨터 프로그램을 포괄하도록 의도된다. 예를 들어, 컴퓨터-판독가능 매체는 자기 저장 디바이스들(예를 들어, 하드 디스크, 플로피 디스크, 자기 스트립들 등), 광학 디스크들(예를 들어, 콤팩트 디스크(CD), 디지털 다목적 디스크(DVD) 등), 스마트 카드들 및 플래시 메모리 디바이스들(예를 들어, 카드, 스틱, 키 드라이브 등)을 포함할 수 있다(그러나 이에 제한되는 것은 아님). 부가적으로, 본 명세서에 설명되는 다양한 저장 매체는 정보를 저장하기 위한 하나 또는 그 초과의 디바이스들 또는 다른 머신-판독가능 매체를 나타낼 수 있다. 용어 "머신-판독가능 매체"는, 이에 제한되지 않고, 명령 또는 데이터를 저장, 포함 또는 반송(carry)할 수 있는 무선 채널들 및 다양한 다른 매체들을 포함할 수 있다.

더욱이, 이동 디바이스와 관련하여 다양한 양상들이 본 명세서에 설명된다. 이동 디바이스는 시스템, 가입자 유닛, 가입자국, 이동국, 모바일, 이동 디바이스, 셀룰러 디바이스, 다중-모드 디바이스, 원격국, 원격 단말, 액세스 단말, 사용자 단말, 사용자 에이전트, 사용자 디바이스 또는 사용자 장비 등으로 또한 지칭될 수도 있다. 가입자국은 셀룰러 전화, 코드리스(cordless) 전화, 세션 개시 프로토콜(SIP) 전화, 무선 로컬 루프(WLL) 스테이션, 개인용 디지털 단말(PDA), 무선 접속 능력을 가진 핸드헬드 디바이스, 또는 무선 모뎀 또는 프로세싱 디바이스와의 무선 통신을 용이하게 하는 유사한 메커니즘에 접속된 다른 프로세싱 디바이스일 수 있다.

전술한 것 이외에, 본 명세서에서 단어 "예시적인"은 예, 사례 또는 예시의 역할을 하는 것을 의미하는데 사용된다. 본 명세서에 "예시적인" 것으로 설명되는 임의의 양상 또는 설계가 다른 양상들 또는 설계들에 대하여 반드시 선호되거나 바람직한 것으로 해석되는 것은 아니다. 그보다는, 예시적이라는 단어의 사용은 구체적인 방식으로 개념들을 나타내도록 의도된다. 게다가, 이 출원 및 첨부된 청구항들에서 설명되는 바와 같이, 용어 "또는"은 배타적 "또는"보다는 내포적 "또는"을 의미하는 것으로 의도된다. 즉, 달리 특정되거나 문맥상 명확하지 않은 한, 어구 "X는 A 또는 B를 이용한다"는 자연적인 내포적 치환들 중 임의의 것을 의미하는 것으로 의도된다. 즉, 이 예에서, X는 A를 이용할 수 있거나, X는 B를 이용할 수 있거나, 또는 X는 A 및 B 양자 모두를 이용할 수 있고, 따라서 표현 "X는 A 또는 B를 이용한다"는 전술한 사례들 중 임의의 것에 하에서 충족된다. 더불어, 달리 특정되거나 단수 형태를 지시하는 것으로 문맥상 명확하지 않은 한, 본 출원 및 첨부된 청구항들에서 사용되는 바와 같이 단수 관사들("a" 및 "an")은 일반적으로 "하나 또는 그 초과"를 의미하는 것으로 해석되어야 한다.

본 명세서에서 사용될 때, "추론하다(infer)" 또는 "추론(inference)"이라는 용어는 일반적으로 이벤트들 또는 데이터를 통해 포착되는 관찰들의 세트로부터 시스템, 환경 또는 사용자의 상태들에 대한 추리 또는 추론의 프로세서를 지칭한다. 추론은 특정 문맥 또는 동작을 식별하기 위하여 이용될 수 있거나, 또는 예를 들어, 상태들에 대한 확률 분포를 발생시킬 수 있다. 추론은 확률적일 수 있다 - 즉, 데이터 및 이벤트들의 고려에 기반하는 해당 상태들에 대한 확률 분포의 계산. 추론은 또한 이벤트들 또는 데이터의 세트로부터 더 높은 레벨의 이벤트들을 구성(compose)하기 위하여 이용되는 기법들을 지칭할 수 있다. 그러한 추론은 관찰된 이벤트들 또는 저장된 이벤트 데이터의 세트, 이벤트들이 시간적으로 아주 근접하게 상호관련되는지 여부, 및 이벤트들 및 데이터가 하나 또는 몇 개의 이벤트 및 데이터 소스들로부터 오는지 여부로부터의 새로운 이벤트들 또는 동작들의 구성을 초래한다.

Claims

시각 미디어 콘텐츠(visual media content)를 식별하기 위한 방법으로서,
이동 디바이스(mobile device)의 카메라로부터 이미지를 수신하는 단계;
상기 이미지 내의 직사각형 디스플레이 디바이스의 경계선(border)을 인식하는 단계 ― 상기 경계선은 공통 경계선 두께를 가짐 ―;
상기 경계선을 인식하는 것에 기초하여 상기 이미지 내에 포함되는 4변형(quadrilateral)을 검출하는 단계; 및
시각 미디어 콘텐츠를 식별하기 위하여 상기 4변형 내에 포함되는 상기 시각 미디어 콘텐츠를 캡쳐하는 단계
를 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제1항에 있어서,
상기 시각 미디어 콘텐츠를 식별하기 위하여 상기 4변형 내에 포함되는 상기 시각 미디어 콘텐츠를 캡쳐하는 단계는, 텍스트 인식을 수행하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제1항에 있어서,
상기 시각 미디어 콘텐츠를 식별하기 위하여 상기 4변형 내에 포함되는 상기 시각 미디어 콘텐츠를 캡쳐하는 단계는, 정적 시각 미디어 콘텐츠에 대한 이미지 인식을 수행하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제1항에 있어서,
상기 이미지 내에 포함되는 4변형을 검출하는 단계는, 상기 이미지의 뷰파인더 묘사(viewfinder depiction)의 부분에 관한 사용자 입력을 수신하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제1항에 있어서,
상기 이동 디바이스의 카메라로부터 이미지를 수신하는 단계는, 복수의 순차적 프레임들을 수신하는 단계를 더 포함하며, 상기 시각 미디어 콘텐츠를 식별하기 위하여 상기 4변형 내에 포함되는 상기 시각 미디어 콘텐츠를 캡쳐하는 단계는, 동적 시각 미디어 콘텐츠에 대한 비디오 이미지 인식을 수행하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제5항에 있어서,
상기 이미지 내에 포함되는 4변형을 검출하는 단계는, 상기 복수의 순차적 프레임들 간의 차를 결정함으로써 모션 맵을 생성하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제6항에 있어서,
코너(corner) 검출을 수행하는 단계; 및
상기 모션 맵 내에 코너 포인트를 프루닝하는(pruning) 단계
를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제1항에 있어서,
상기 이미지 내에 포함되는 4변형을 검출하는 단계는, 관심 영역(region of interest) 맵을 에워싸도록(encompass) 상기 이미지를 크롭핑(cropping) 하는 단계
를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제1항에 있어서,
상기 이미지 내에 포함되는 4변형을 검출하는 단계는, 더 밝은 조명(illumination)을 갖는 부분을 검출함으로써 글로잉(glowing) 맵을 생성하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제9항에 있어서, 상기 이미지 내에 포함되는 4변형을 검출하는 단계는,
코너 검출을 수행하는 단계;
코너 포인트들을 클러스터링하는 단계; 및
상기 글로잉 맵 내의 코너 포인트들의 클러스터를 프루닝하는 단계
를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제1항에 있어서,
상기 이미지 내에 포함되는 4변형을 검출하는 단계는, 상기 이미지의 부분들에 대한 초점 심도(depth of focus)를 검출함으로써 깊이 맵을 생성하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제1항에 있어서,
상기 이미지 내에 포함되는 4변형을 검출하는 단계는, 상기 직사각형 디스플레이 디바이스의 원근 시점(perspective view)을 식별하기 위한 인식 기준들을 충족시키는 코너 포인트들의 선택된 4개 클러스터들의 후보 4변형 형상을 검출하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제12항에 있어서,
상기 직사각형 디스플레이 디바이스의 원근 시점을 식별하는 것은, 임의의 후보 4변형 형상이 모든 다른 후보 4변형 형상들을 에워싸기에 충분히 큰지 여부를 결정함으로써, 다른 4변형의 구역(area)을 미리 결정된 임계치보다 더 점유하는 상기 임의의 후보 4변형 형상을 프루닝하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
삭제
제1항에 있어서,
상기 직사각형 디스플레이 디바이스의 경계선을 인식하는 단계는, 대향 면들 상의 상기 경계선의 부분들에 대한 상기 공통 경계선 두께를 검출하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제15항에 있어서,
상기 대향 면들 상의 상기 경계선의 부분들에 대한 공통 경계선 두께를 검출하는 단계는, 상기 직사각형 디스플레이 디바이스의 에워싼 치수(encompassed dimension)의 미리 결정된 퍼센트의 두께를 검출하는 단계를 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제1항에 있어서,
상기 직사각형 디스플레이 디바이스의 경계선을 인식하는 단계는, 대향 면들 상의 상기 경계선의 상당(substantial) 부분에 대해 공통될 공통 컬러를 검출하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제17항에 있어서,
상기 대향 면들 상의 상기 경계선의 상당 부분에 대해 공통될 공통 컬러를 검출하는 단계는, 복수의 픽셀들의 적어도 소정 퍼센트(at least a percentage)가 공통 컬러를 갖는 것을 검출하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제12항에 있어서,
상기 직사각형 디스플레이 디바이스의 원근 시점을 식별하는 것은, 상기 후보 4변형 형상이, 볼록하지 않은 것, 모든 내각(internal angle)들이 110도보다 큰 것, 상기 이미지의 상당 부분을 점유하는 구역을 갖는 것, 표준 비디오 종횡비에 근접하는 종횡비(aspect ratio)를 갖는 것, 그리고 동일한 각도의 2개의 인접 각도들을 갖는 것으로 구성되는 하나 초과의 기준들을 충족시키는지를 결정하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제1항에 있어서,
대응 미디어 콘텐츠를 식별하기 위하여, 선택된 4변형 내의 이미지의 부분에 대해 스케일 불변 피쳐 변환(scale invariant feature transform), 에지 검출 및 히스토그램 분석을 수행하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제1항에 있어서,
이미지 프로세싱 제약을 결정하는 단계; 및
상기 이미지 프로세싱 제약에 응답하여 상기 이동 디바이스와 원격 서버 사이에 상기 4변형 내의 상기 이미지의 부분의 이미지 프로세싱을 분산시키는 단계
를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제21항에 있어서,
상기 이미지 프로세싱 제약은 상기 이미지 프로세싱을 수행하기 위한 상기 이동 디바이스의 능력(capability)을 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제21항에 있어서,
상기 이미지 프로세싱 제약은 원격 프로세싱에 대해 상기 이동 디바이스로부터 송신 채널을 통해 송신하기 위한 데이터 송신 비용을 적어도 부분적으로 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제21항에 있어서,
상기 이미지 프로세싱 제약은 원격 프로세싱에 대한 상기 이동 디바이스로부터 송신 채널의 능력을 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제24항에 있어서,
상기 이미지의 부분의 이미지 프로세싱을 분산시키는 단계는:
상기 송신 채널의 능력이 미리 결정된 기준보다 높다고 결정하는 것에 응답하여, 이미지 클립을 포함하는 이미지 데이터를 송신하는 단계;
상기 송신 채널의 능력이 상기 미리 결정된 기준과 동일하다고 결정하는 것에 응답하여, 부분적 이미지 프로세싱 이후에 상기 이미지 클립을 포함하는 상기 이미지 데이터를 송신하는 단계; 및
상기 송신 채널의 능력이 상기 미리 결정된 기준보다 낮다고 결정하는 것에 응답하여, 완전한(full) 이미지 프로세싱 이후에 상기 이미지 클립을 포함하는 상기 이미지 데이터를 송신하는 단계
를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제1항에 있어서,
상기 4변형 내의 상기 이미지의 부분으로부터 얻어지는(derived) 이미지 데이터를 원격 서버로 송신하는 단계; 및
미디어 콘텐츠의 리포지터리(repository)에 대한 상기 이미지 데이터의 임의의 매치들에 대해 상기 원격 서버로부터 리포트를 수신하는 단계
를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제26항에 있어서,
상기 임의의 매치들에 대해 상기 원격 서버로부터 리포트를 수신하는 단계는:
매치들이 식별되지 않은 것으로 결정하는 단계; 및
상기 원격 서버로 송신하기 위한 볼록한 부가적인 이미지 데이터를 획득하기 위하여, 이동 디바이스의 카메라로부터 이미지를 수신하는 것, 상기 이미지 내에 포함되는 4변형을 검출하는 것, 및 상기 시각 미디어 콘텐츠를 식별하기 위해 상기 4변형 내에 포함되는 상기 시각 미디어 콘텐츠를 캡쳐하는 것을, 반복하는 단계
를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제26항에 있어서,
상기 임의의 매치들에 대해 상기 원격 서버로부터 리포트를 수신하는 단계는:
상기 리포트로부터 얻어지는 다수의 매치들은 상기 이동 디바이스의 사용자 인터페이스 상에서 제시되는 사이즈를 갖는 것을 결정하는 단계; 및
상기 리포트로부터 얻어지고 상기 사용자 인터페이스 상에 제시되는 미디어 콘텐츠의 리스팅 중 하나에 대한 사용자 선택을 수신하는 단계
를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제26항에 있어서,
상기 임의의 매치들에 대해 상기 원격 서버로부터 리포트를 수신하는 단계는:
상기 리포트로부터 얻어지는 다수의 매치들은 상기 이동 디바이스의 사용자 인터페이스 상에서 제시되는 사이즈보다 큰 사이즈를 갖는 것을 결정하는 단계; 및
부가적인 이미지 프로세싱을 위해 상기 원격 서버에 응답하여 이미지 클립을 송신하는 단계
를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제26항에 있어서,
상기 이동 디바이스에 의해 제시하기 위한 매칭 미디어 콘텐츠를 수신하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제30항에 있어서,
상기 시각 미디어 콘텐츠에서 식별되는 포인트로부터 상기 매칭 미디어 콘텐츠를 제시하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제30항에 있어서,
상기 이동 디바이스의 사용자 인터페이스에 대한 상기 매칭 미디어 콘텐츠를 재포맷팅하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제30항에 있어서,
상기 매칭 미디어 콘텐츠를 재포맷팅하는 것을 프롬프트(prompt)하기 위하여 상기 이동 디바이스의 사용자 인터페이스에 대한 식별자를 송신하는 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제30항에 있어서,
상기 매칭 미디어 콘텐츠를 제시하기 위하여 데이터 관리 권리(right)들을 네고시에이팅하는(negotiating) 단계를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
제1항에 있어서,
마이크로폰에 의하여 캡처되는 오디오를 수신하는 단계; 및
미디어 콘텐츠의 리포지터리에 대해 이미지 데이터를 매칭시키는 것을 보조하기 위해 해쉬 룩업 함수(hash lookup function)를 사용하는 단계
를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 방법.
시각 미디어 콘텐츠를 식별하기 위한 적어도 하나의 프로세서로서,
이동 디바이스의 카메라로부터 이미지를 수신하기 위한 제1 모듈;
상기 이미지 내의 직사각형 디스플레이 디바이스의 경계선을 인식하기 위한 제2 모듈 ― 상기 경계선은 공통 경계선 두께를 가짐 ―;
상기 경계선을 인식하는 것에 기초하여 상기 이미지 내에 포함되는 4변형을 검출하기 위한 제3 모듈; 및
시각 미디어 콘텐츠를 식별하기 위하여 상기 4변형 내에 포함되는 상기 시각 미디어 콘텐츠를 캡쳐하기 위한 제4 모듈
을 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 적어도 하나의 프로세서.
시각 미디어 콘텐츠를 식별하기 위한 컴퓨터-판독가능 저장 매체로서,
컴퓨터로 하여금, 이동 디바이스의 카메라로부터 이미지를 수신하게 하기 위한 제1 세트의 코드들;
상기 컴퓨터로 하여금, 상기 이미지 내의 직사각형 디스플레이 디바이스의 경계선을 인식하게 하기 위한 제2 세트의 코드들 ― 상기 경계선은 공통 경계선 두께를 가짐 ―;
상기 컴퓨터로 하여금, 상기 경계선을 인식하는 것에 기초하여 상기 이미지 내에 포함되는 4변형을 검출하게 하기 위한 제3 세트의 코드들; 및
상기 컴퓨터로 하여금, 시각 미디어 콘텐츠를 식별하기 위하여 상기 4변형 내에 포함되는 상기 시각 미디어 콘텐츠를 캡쳐하게 하기 위한 제4 세트의 코드들
을 포함하는, 컴퓨터-판독가능 저장 매체.
시각 미디어 콘텐츠를 식별하기 위한 장치로서,
이동 디바이스의 카메라로부터 이미지를 수신하기 위한 수단;
상기 이미지 내의 직사각형 디스플레이 디바이스의 경계선을 인식하기 위한 수단 ― 상기 경계선은 공통 경계선 두께를 가짐 ―;
상기 경계선을 인식하는 것에 기초하여 상기 이미지 내에 포함되는 4변형을 검출하기 위한 수단; 및
시각 미디어 콘텐츠를 식별하기 위하여 상기 4변형 내에 포함되는 상기 시각 미디어 콘텐츠를 캡쳐하기 위한 수단
을 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 장치.
시각 미디어 콘텐츠를 식별하기 위한 장치로서,
이미지를 생성하기 위한, 이동 디바이스의 카메라; 및
상기 이미지 내의 직사각형 디스플레이 디바이스의 경계선을 인식하고, 상기 경계선을 인식하는 것에 기초하여 상기 카메라로부터 수신된 이미지 내에 포함되는 4변형을 검출하고, 그리고 시각 미디어 콘텐츠를 식별하기 위하여 상기 4변형 내에 포함되는 상기 시각 미디어 콘텐츠를 캡쳐하기 위한 컴퓨팅 플랫폼을 포함하고,
상기 경계선은 공통 경계선 두께를 가지는,
시각 미디어 콘텐츠를 식별하기 위한 장치.
제39항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 텍스트 인식을 수행함으로써 상기 시각 미디어 콘텐츠를 식별하기 위하여 상기 4변형 내에 포함되는 상기 시각 미디어 콘텐츠를 캡쳐하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제39항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 정적 시각 미디어 콘텐츠에 대한 이미지 인식을 수행함으로써 상기 시각 미디어 콘텐츠를 식별하기 위하여 상기 4변형 내에 포함되는 상기 시각 미디어 콘텐츠를 캡쳐하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제39항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 상기 이미지의 뷰파인더 묘사의 부분에 관한 사용자 입력을 수신함으로써 상기 이미지 내에 포함되는 상기 4변형을 검출하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제39항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 복수의 순차적 프레임들을 수신함으로써 상기 이동 디바이스의 상기 카메라로부터 상기 이미지를 수신하기 위한 것이며, 상기 시각 미디어 콘텐츠를 식별하기 위하여 상기 4변형 내에 포함되는 상기 시각 미디어 콘텐츠를 캡쳐하는 것은, 동적 시각 미디어 콘텐츠에 대한 비디오 이미지 인식을 수행하는 것을 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제43항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 상기 복수의 순차적 프레임들 간의 차를 결정하는 것에 의해 모션 맵을 생성함으로써 상기 이미지 내에 포함되는 상기 4변형을 검출하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제44항에 있어서,
상기 컴퓨팅 플랫폼은 추가로:
코너 검출을 수행하며; 그리고
상기 모션 맵 내에 코너 포인트를 프루닝하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제39항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 관심 영역 맵을 에워싸도록 상기 이미지를 크롭핑하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제39항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 더 밝은 조명을 갖는 부분을 검출하는 것에 의해 글로잉 맵을 생성함으로써 상기 이미지 내에 포함되는 상기 4변형을 검출하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제47항에 있어서,
상기 컴퓨팅 플랫폼은 추가로,
코너 검출을 수행하는 것;
코너 포인트들을 클러스터링하는 것; 및
상기 글로잉 맵 내에 코너 포인트들의 클러스터를 프루닝하는 것
에 의하여, 상기 이미지 내에 포함되는 상기 4변형을 검출하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제39항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 상기 이미지의 부분들에 대한 초점 심도를 검출하는 것에 의해 깊이 맵을 생성함으로써 상기 이미지 내에 포함되는 상기 4변형을 검출하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제39항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 상기 직사각형 디스플레이 디바이스의 원근 시점을 식별하기 위한 인식 기준들을 충족시키는 코너 포인트들의 선택된 4개 클러스터들의 후보 4변형 형상을 검출함으로써 상기 이미지 내에 포함되는 상기 4변형을 검출하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제50항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 임의의 후보 4변형 형상이 모든 다른 후보 4변형 형상들을 에워싸기에 충분히 큰지 여부를 결정하는 것에 의해, 다른 4변형의 구역을 미리 결정된 임계치보다 더 점유하는 상기 임의의 후보 4변형 형상을 프루닝함으로써 상기 직사각형 디스플레이 디바이스의 상기 원근 시점을 식별하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제50항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 상기 직사각형 디스플레이 디바이스의 경계선을 인식함으로써 상기 직사각형 디스플레이 디바이스의 상기 원근 시점을 식별하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제39항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 대향 면들 상의 상기 경계선의 부분들에 대한 상기 공통 경계선 두께를 검출함으로써 상기 직사각형 디스플레이 디바이스에 대한 상기 경계선을 인식하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제53항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 상기 직사각형 디스플레이 디바이스의 에워싼 치수의 미리 결정된 퍼센트의 두께를 검출함으로써 대향 면들 상의 상기 경계선의 부분들에 대한 상기 공통 경계선 두께를 검출하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제39항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 대향 면들 상의 상기 경계선의 상당 부분에 대해 공통될 공통 컬러를 검출함으로써 상기 직사각형 디스플레이 디바이스에 대한 상기 경계선을 인식하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제55항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 복수의 픽셀들의 적어도 소정 퍼센트(at least a percentage)가 상기 공통 컬러를 갖는 것을 검출함으로써 대향 면들 상의 상기 경계선의 상당 부분에 대해 공통될 상기 공통 컬러를 검출하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제50항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 상기 후보 4변형 형상이, 볼록하지 않은 것, 모든 내각들이 110도보다 큰 것, 상기 이미지의 상당 부분을 점유하는 구역을 갖는 것, 표준 비디오 종횡비에 근접하는 종횡비를 갖는 것, 그리고 동일한 각도의 2개의 인접 각도들을 갖는 것으로 구성되는 하나 초과의 기준들을 충족시키는지를 결정하는 것에 의하여 상기 직사각형 디스플레이 디바이스의 원근 시점을 식별하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제39항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 대응 미디어 콘텐츠를 식별하기 위하여, 선택된 4변형 내의 상기 이미지의 부분에 대해 스케일 불변 피쳐 변환, 에지 검출 및 히스토그램 분석을 수행하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제39항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 이미지 프로세싱 제약을 결정하고, 상기 이미지 프로세싱 제약에 응답하여 상기 이동 디바이스와 원격 서버 사이에 상기 4변형 내의 상기 이미지의 부분의 이미지 프로세싱을 분산시키기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제59항에 있어서,
상기 이미지 프로세싱 제약은 상기 이미지 프로세싱을 수행하기 위한 상기 이동 디바이스의 능력을 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제59항에 있어서,
상기 이미지 프로세싱 제약은 원격 프로세싱에 대해 상기 이동 디바이스로부터 송신채널을 통해 송신하기 위한 데이터 송신 비용을 적어도 부분적으로 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제59항에 있어서,
상기 이미지 프로세싱 제약은 상기 원격 프로세싱에 대한 상기 이동 디바이스로부터의 송신 채널의 능력을 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제62항에 있어서,
송신기를 더 포함하고,
상기 송신기는:
상기 송신 채널의 능력이 미리 결정된 기준보다 높다고 결정하는 것에 응답하여, 이미지 클립을 포함하는 이미지 데이터를 송신하고;
상기 송신 채널의 능력이 상기 미리 결정된 기준과 동일하다고 결정하는 것에 응답하여, 부분적 이미지 프로세싱 이후에 상기 이미지 클립을 포함하는 상기 이미지 데이터를 송신하며; 그리고
상기 송신 채널의 능력이 상기 미리 결정된 기준보다 낮다고 결정하는 것에 응답하여, 완전한 이미지 프로세싱 이후에 상기 이미지 클립을 포함하는 상기 이미지 데이터를 송신하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제39항에 있어서,
상기 4변형 내의 상기 이미지의 부분으로부터 얻어지는 이미지 데이터를 원격 서버로 송신하기 위한 송신기; 및
미디어 콘텐츠의 리포지터리에 대한 상기 이미지 데이터의 임의의 매치들에 대해 상기 원격 서버로부터 리포트를 수신하기 위한 수신기
를 더 포함하는, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제64항에 있어서,
상기 컴퓨팅 플랫폼은 추가로,
매치들이 식별되지 않은 것으로 결정하는 것; 및
상기 원격 서버로 송신하기 위한 부가적인 이미지 데이터를 획득하기 위하여, 이동 디바이스의 카메라로부터 이미지의 수신, 상기 이미지 내에 포함되는 4변형의 검출, 및 상기 시각 미디어 콘텐츠를 식별하기 위한 상기 4변형 내에 포함되는 상기 시각 미디어 콘텐츠의 캡쳐를, 반복하는 것
에 의하여, 임의의 매치들에 대해 상기 원격 서버로부터의 리포트를 수신하는 상기 수신기에 응답하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제64항에 있어서,
상기 컴퓨팅 플랫폼은 추가로,
상기 리포트로부터 얻어지는 다수의 매치들이 상기 이동 디바이스의 사용자 인터페이스 상에 제시되는 사이즈를 갖는 것을 결정하는 것; 및
상기 리포트로부터 얻어지고 상기 사용자 인터페이스 상에 제시되는 미디어 콘텐츠의 리스팅 중 하나에 대한 사용자 선택을 수신하는 것
에 의하여, 임의의 매치들에 대해 상기 원격 서버로부터 리포트를 수신하는 상기 수신기에 응답하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제64항에 있어서,
상기 컴퓨팅 플랫폼은 추가로,
상기 리포트로부터 얻어지는 다수의 매치들이 상기 이동 디바이스의 사용자 인터페이스 상에 제시되는 사이즈보다 큰 사이즈를 갖는 것을 결정하는 것; 및
부가적인 이미지 프로세싱을 위해 상기 원격 서버에 응답하여 이미지 클립을 송신하는 것
에 의하여, 임의의 매치들에 대해 상기 원격 서버로부터 리포트를 수신하는 상기 수신기에 응답하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제64항에 있어서,
상기 수신기는 추가로, 상기 이동 디바이스에 의한 제시를 위한 매칭 미디어 콘텐츠를 수신하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제68항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 상기 시각 미디어 콘텐츠에서 식별되는 포인트로부터 상기 매칭 미디어 콘텐츠를 제시하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제68항에 있어서,
상기 컴퓨팅 플랫폼은 추가로, 상기 이동 디바이스의 사용자 인터페이스에 대한 상기 매칭 미디어 콘텐츠를 재포맷팅하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제68항에 있어서,
상기 송신기는 추가로, 상기 매칭 미디어 콘텐츠의 재포맷팅을 프롬프트하기 위하여 상기 이동 디바이스의 사용자 인터페이스에 대한 식별자를 송신하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제68항에 있어서,
상기 송신기 및 수신기를 통해 상기 컴퓨팅 플랫폼은 추가로, 상기 매칭 미디어 콘텐츠를 제시하기 위하여 데이터 관리 권리들을 네고시에이팅하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
제58항에 있어서,
오디오를 캡쳐하기 위한 마이크로폰을 더 포함하며,
상기 컴퓨팅 플랫폼은 추가로, 미디어 콘텐츠의 리포지터리에 대한 이미지 데이터의 매칭을 보조하기 위하여 해쉬 룩업 함수를 사용하기 위한 것인, 시각 미디어 콘텐츠를 식별하기 위한 장치.
디지털 이미지의 이미지 프로세싱을 분산시키는 방법으로서,
이동 통신 디바이스의 카메라를 사용하는 상기 디지털 이미지를 캡쳐하는 단계;
상기 이동 통신 디바이스, 상기 이동 통신 디바이스로부터 원격 네트워크로의 에어 인터페이스(air interface), 및 네트워크 서버 중 적어도 하나에 대한 하나 이상의 능력 제약을 결정하는 단계;
상기 능력 제약에 기반하여 상기 이동 통신 디바이스와 상기 네트워크 서버 사이에서 상기 디지털 이미지의 이미지 프로세싱을 분산시키는 단계 ― 상기 능력 제약은 가변적 양의 이미지 데이터를 송신하는데 요구되는 전력 또는 상기 이미지 프로세싱을 로컬로 수행하기 위한 전력 소모 중 어느 하나에 기반한 전력 제한을 포함함 ― ; 및
이미지 인식의 결과를 수신하는 단계
를 포함하는, 디지털 이미지의 이미지 프로세싱을 분산시키는 방법.
제74항에 있어서,
상기 능력 제약을 결정하는 단계는 상기 에어 인터페이스의 데이터 송신 능력을 결정하는 단계를 더 포함하는, 디지털 이미지의 이미지 프로세싱을 분산시키는 방법.
제74항에 있어서,
상기 능력 제약을 결정하는 단계는 상기 이동 통신 디바이스의 이미지 프로세싱 능력을 결정하는 단계를 더 포함하는, 디지털 이미지의 이미지 프로세싱을 분산시키는 방법.
제74항에 있어서,
상기 능력 제약에 기반하여 상기 이동 통신 디바이스와 상기 네트워크 서버 사이에서 상기 디지털 이미지의 이미지 프로세싱을 분산시키는 단계는, 로컬 프로세싱, 공유 프로세싱 및 원격 프로세싱 중 하나를 선택하는 단계를 더 포함하는, 디지털 이미지를 이미지 프로세싱을 분산시키는 방법.
시각 미디어 콘텐츠를 식별하기 위한 방법으로서,
모바일 디바이스의 카메라로부터 이미지를 수신하는 단계;
상기 이미지 내에 포함되는 4변형을 검출하는 단계; 및
시각 미디어 콘텐츠를 식별하기 위해 상기 4변형 내에 포함된 상기 시각 미디어 콘텐츠를 캡쳐하는 단계를 포함하고,
상기 4변형을 검출하는 단계는 직사각형 디스플레이 디바이스의 원근 시점을 식별하기 위한 인식 기준을 충족시키는 코너 포인트들의 4개의 선택된 클러스터들의 후보 4변형 형상을 검출하는 단계를 더 포함하고,
상기 직사각형 디스플레이 디바이스의 원근 시점을 식별하는 것은 상기 직사각형 디스플레이 디바이스의 경계선을 인식하는 것을 포함하고,
상기 직사각형 디스플레이 디바이스의 경계선을 인식하는 것은 대향 면들 상의 상기 경계선의 부분들에 대한 공통 경계선 두께를 검출하는 것을 더 포함하는,
시각 미디어 콘텐츠를 식별하기 위한 방법.
제1항에 있어서,
상기 이미지 내에 포함되는 4변형을 검출하는 단계는 객체 콘트라스트(object contrast)에 기반하여 상기 이미지 내의 중요한 세부사항을 식별하는 관심 영역 맵을 생성하는 단계를 더 포함하는,
시각 미디어 콘텐츠를 식별하기 위한 방법