KR101672570B1

KR101672570B1 - 디지털 이미지들 내의 랜드마크들 검출 및 주석 달기

Info

Publication number: KR101672570B1
Application number: KR1020117029949A
Authority: KR
Inventors: 하트위그 아담; 리 장
Original assignee: 구글 인코포레이티드
Priority date: 2009-05-15
Filing date: 2010-05-14
Publication date: 2016-11-03
Also published as: US9721188B2; AU2010248862B2; US20100290699A1; US10303975B2; US20180211134A1; EP2430572A1; US8396287B2; US20130202198A1; JP5680063B2; JP2012527057A; AU2010248862A1; CN102549571A; CN102549571B; WO2010132789A1; CA2762090C; US20150213329A1; CA2762090A1; US9020247B2; KR20120026093A

Abstract

디지털 이미지들 내에서의 랜드마크들의 자동 검출, 및 그러한 이미지들의 주석달기를 위한 방법 및 시스템이 개시된다. 디지털 이미지들 내에서 랜드마크들을 검출하고 주석을 달기 위한 방법은 복수의 텍스트 연관된 디지털 이미지 내의 하나 이상의 이미지에 랜드마크를 설명하는 태그를 자동으로 할당하여, 랜드마크 태그된 이미지들의 집합을 생성하는 단계, 랜드마크 태그된 이미지들의 집합으로부터 랜드마크에 대한 어피어런스 모델을 학습하는 단계, 및 어피어런스 모델을 이용하여, 새로운 디지털 이미지 내에서 랜드마크를 검출하는 단계를 포함한다. 방법은 또한 랜드마크를 설명하는 태그로 새로운 이미지에 주석을 다는 단계를 포함할 수 있다.

Description

디지털 이미지들 내의 랜드마크들 검출 및 주석 달기{DETECTING AND ANNOTATING LANDMARKS IN DIGITAL IMAGES}

본 발명은 일반적으로 디지털 이미지 컬렉션에 관한 것이고, 더 구체적으로는 대규모의 디지털 이미지 컬렉션 내에서 인기있는 랜드마크(landmark)들을 식별하는 것에 관한 것이다.

디지털 이미지의 사용 증가, 디지털 저장 용량의 증가, 및 인터넷과 같은 디지털 매체에 의해 제공되는 상호연결성에 따라, 점점 더 많은 수의 사람들이 디지털 이미지들의 훨씬 더 큰 코퍼스들(corpora)에 액세스할 수 있게 되었다. 전세계에 분산되어 있는 다양한 위치들로부터의 다양한 관심을 갖는 사람들이 다양한 주제의 사진을 촬영하고, 그러한 사진들을 예를 들어 인터넷상에서 다른 사람들이 볼 수 있게 한다. 예를 들어, 전세계의 다양한 랜드마크 및 관광지의 디지털 사진들이 사진 촬영의 숙련 수준이 다른 사람들에 의해 웹 상에 포스트될 수 있다. 그러한 사진들은 동일한 랜드마크를 상이한 관점들로부터, 상이한 조건들 하에서, 및/또는 상이한 거리들로부터 보여줄 수 있다.

이용될 수 있는 광대한 개수의 그러한 이미지들은 인기있는 랜드마크들의 지표(indicator), 또는 그에 대한 가이드로서 유용할 수 있다. 이러한 디지털 이미지들의 대규모의 코퍼스들 내에 포함되어 있는 정보를 레버리지(leverage)하기 위해서는, 코퍼스들이 체계화될 필요가 있다. 예를 들어, (캘리포니아주 마운티 뷰의 Google Inc.로부터의) Picasa 웹 앨범과 같은 디지털 이미지 웹 사이트들에서는, 하이 레벨 메뉴로부터 시작하여, 사진들을 입수할 수 있는 주제들의 상세한 목록까지 드릴다운할 수 있다. 대안적으로는, 디지털 사진들을 갖는 하나 이상의 사이트를 검색할 수 있을 수 있다. 예를 들어, 일부 관광 정보 웹 사이트들은 인기있는 관광지들의 게시된 목록들에 연관된 랜드마크들의 다운로드된 이미지들을 갖고 있을 수 있다.

가장 전통적인 디지털 사진 체계화 시스템들은 사진들에 태그를 달기 위해 사용자에게 의존한다. 많은 새로운 사진들이 이러한 디지털 이미지 컬렉션들에 추가됨에 따라, 사용자들이 그러한 디지털 이미지 컬렉션들의 유용성을 증가시킬 완전하고 일관된 방식으로 사진들을 수동으로 레이블링하는 것이 실현가능하지 않을 수 있다. 이러한 대규모의 컬렉션들로부터 (가장 인기있는 관광 목적지와 같은) 정보를 자동으로 추출할 수 있는 시스템은 역시 캘리포니아의 Google Inc.에 양도된 발명의 명칭이 "Automatic Discovery of Popular Landmarks"인 미국 특허 출원 12/119,359에 설명되어 있다. 출원 12/119,359에 설명된 시스템은 지오-코딩(geo-coding)에 기초하는 클러스터링 단계, 및 이미지들의 일치하는 시각적 특징들(matching visual features)에 기초하는 클러스터링 단계를 포함하는 처리 파이프라인을 이용한다. 그러나, 자동으로 랜드마크들을 발견하고, 랜드마크들을 포함하는 이미지들에 주석을 달기 위한 다른 접근법들이 필요하다.

디지털 이미지들 내에서의 랜드마크들의 자동 검출, 및 그러한 이미지들의 주석달기(annotation)를 위한 방법 및 시스템이 개시된다. 일 실시예에서, 디지털 이미지들 내에서 랜드마크들을 검출하고 주석을 달기 위한 방법은 복수의 텍스트 연관된 디지털 이미지(text-associated digital images) 내의 하나 이상의 이미지에 랜드마크를 설명하는 태그를 자동으로 할당하는 단계를 포함한다. 이는 랜드마크 태그된 이미지들(landmark-tagged images)의 집합을 생성한다. 어피어런스 모델(appearance model)은 랜드마크 태그된 이미지들의 집합으로부터 랜드마크에 대해 학습될 수 있다. 이는 어피어런스 모델을 이용하여, 새로운 이미지 내에서 랜드마크를 검출하는 것을 허용한다. 방법은 또한 랜드마크를 설명하는 태그로 새로운 이미지에 주석을 다는 단계를 포함할 수 있다.

다른 실시예는 디지털 이미지들 내에서 자동으로 랜드마크들을 검출하고 주석을 달기 위한 시스템이다. 시스템은 메모리 매체 내에 저장된 텍스트 연관된 디지털 이미지들의 적어도 하나의 컬렉션, 및 매체에 통신 연결된 적어도 하나의 프로세서를 포함한다. 프로세서들은 복수의 텍스트 연관된 디지털 이미지 내의 하나 이상의 이미지에 랜드마크를 설명하는 태그를 자동으로 할당하도록 구성된다. 이는 랜드마크 태그된 이미지들의 집합을 생성한다. 어피어런스 모델은 랜드마크에 대하여, 랜드마크 태그된 이미지들의 집합으로부터 학습될 수 있다. 이는 어피어런스 모델을 이용하여, 새로운 디지털 이미지 내에서 랜드마크를 검출하는 것을 허용한다.

본 발명의 다른 특징들 및 이점들과, 그 다양한 실시예의 구조 및 동작은 이하에서 첨부 도면들을 참조하여 더 상세하게 설명된다. 본 발명은 여기에 설명된 특정한 실시예들에 한정되지 않음에 유의해야 한다. 그러한 실시예들은 오직 예시의 목적으로만 여기에 제공된다. 관련 기술 분야에 숙련된 사람들은 여기에 포함되어 있는 교시들에 기초하여 추가의 실시예들을 분명하게 알 것이다.

첨부 도면들에 예시가 도시되어 있을 수 있는 본 발명의 실시예들이 참조될 것이다. 이 도면들은 제한적인 것이 아니라 예시적인 것으로 의도된 것이다. 비록 본 발명이 이러한 실시예들의 맥락에서 일반적으로 설명되지만, 본 발명의 범위를 이러한 특정한 실시예들로 제한하도록 의도되지 않음을 이해해야 한다.
도 1은 본 발명의 실시예에 따른, 디지털 이미지들 내의 랜드마크들의 자동 검출을 위한 시스템을 도시한 것이다.
도 2는 본 발명의 실시예에 따라 도 1의 시스템의 컴포넌트를 더 상세하게 도시한 것이다.
도 3은 본 발명의 실시예에 따라 자동으로 디지털 이미지들 내의 랜드마크들을 검출하고 디지털 이미지들에 주석을 달기 위한 프로세스이다.
도 4는 본 발명의 실시예에 따라, 선택된 텍스트 연관된 이미지들에 랜드마크를 위한 태그를 할당하기 위한 프로세스이다.
도 5는 본 발명의 실시예에 따라, 텍스트 연관된 이미지들에 기초하여 n 그램들의 목록을 생성하기 위한 프로세스이다.
도 6은 본 발명의 실시예에 따라, 도 4의 프로세스에 따라 생성된 n 그램들의 목록으로부터 n 그램들의 집합을 선택하는 프로세스이다.
여기에서는, 본 발명이 특정한 응용들을 위한 예시적인 실시예들을 참조하여 설명되지만, 본 발명은 그에 제한되지 않음을 이해해야 한다. 여기에서의 교시에 접근할 수 있는 본 기술 분야에 숙련된 자들은 그 범위 내에서의, 및 본 발명이 상당한 유용성을 가질 추가의 분야들 내에서의 추가의 수정들, 응용들 및 실시예들을 인식할 것이다.

개요

본 발명은 디지털 이미지들 내의 개체들을 자동으로 식별하고 분류하기 위한 방법들 및 시스템들을 포함한다. 예를 들어, 본 발명의 실시예들은 인터넷상에서 액세스가능한 디지털 이미지 컬렉션들에 기초하여 가장 인기있는 관광 랜드마크들을 식별하고, 분류하고, 우선순위화할 수 있다. 본 발명의 방법 및 시스템은 가장 인기있는 관광 위치들에 대한 최신 목록 및 이미지들의 컬렉션의 효율적인 유지관리를 가능하게 할 수 있다. 일부 실시예들에서, 관광 위치의 인기도는 사용자들에 의해 인터넷상에 포스트(post)되는 그 위치의 이미지의 개수에 기초하여 근사될 수 있다.

많은 개인들이 그들 주변의 환경, 그들의 일상 활동에서 방문한 위치들, 및 그들의 관광 여행에서 방문한 장소들의 디지털 사진을 촬영한다. 이용되는 카메라들은 다양한 수준의 품질 및 정교함을 갖는다. 이미지를 캡처하는 개인들도 다양한 숙련 수준을 갖는다. 이미지들은 다양한 각도로부터, 다양한 조명 수준에서, 다양한 수준의 주변의 시각적 잡음을 갖고서, 다양한 기상 조건들 등에서 캡처된다. 그 다음, 이러한 이미지들 중 다수는 사진 공유 웹사이트들 상에 포스트되거나, 다른 수단을 통해 디지털적으로 이용가능하게 된다. 디지털 사진들과 같은 디지털 이미지들의 광대한 컬렉션으로의 액세스는 인터넷과 같은 네트워크들을 통해 이용가능하게 된다.

종종, 이미지들을 온라인으로 포스트하는 사용자들은 또한 예를 들어 하나 이상의 태그 및/또는 캡션을 추가하는 것에 의해, 포스트된 이미지들에 주석을 단다. 태그는 이미지들의 명칭을 정하기 위해 이용될 수 있다. 또한, 태그들은 이미지에 관련된 키워드들을 할당하기 위해 이미지들에 할당될 수 있다. 예를 들어, 에펠탑의 이미지에는 태그 "에펠탑", "파리", "프랑스", "유럽", "여름" 또는 탑 앞에서 포즈를 취하고 있는 것으로 보이는 사람의 이름이 할당될 수 있다. 태그들은 다양한 입도(granularity) 수준에서의 체계화 도구들로서 가치가 있는데, "프랑스"는 프랑스 내의 랜드마크들에 대한 검색 하에서 이미지를 분류하기 위해 유용할 수 있는 한편, 태그로서 "에펠탑"만을 가지면, "파리" 및/또는 "프랑스" 내의 랜드마크들에 대한 검색으로부터의 이미지를 배제시킬 수 있다. 이미지들 내에 포함되어 있는 랜드마크들을 결정하는 데에 있어서의 이미지들의 태그들의 정확도 및 유용성에서의 변화(variation)에도 불구하고, 사용자 태그된 이미지들(user-tagged images)의 코퍼스들은 자동 랜드마크 인식 시스템을 구축하는 목적을 위한 가치있는 정보의 소스이다.

다른 잠재적인 정보 소스들은 텍스트와 이미지들을 링크하는 다양한 다른 문서들 및 전자 소스들을 포함한다. 예를 들어, 에펠탑에 관한 잡지 기사는 그 주제에 관한 사진을 포함할 수 있다. 신문 콘텐츠, 잡지 및 저널 콘텐츠, 다양한 랜드마크에 관한 블로그 포스팅을 포함하여 개인들에 의해 작성 및/또는 포스트된 글들은 종종 텍스트 설명에 직접 연계되는 이미지들을 포함한다. 인식가능한 랜드마크 연관된 텍스트를 갖는 이미지들은 랜드마크 태그된 이미지들로 칭해질 수 있다.

본 발명의 실시예들은 인기있는 랜드마크들에 관한 정보를 획득하기 위해 이미지들에 관하여 이용가능한 몇몇 유형의 데이터를 레버리지한다. 예를 들어, 지오 태그(geo-tags), 텍스트 태그, 작성자 정보, 타임스탬프(예를 들어, 시간 또는 원점), 및 시각적 일치 정보(visual match information)는 본 발명의 실시예들에서 이용되는 정보의 유형들 중 일부이다. 이러한 정보 중 일부는 각각의 이미지와 함께 이용가능하다 (예를 들어, 이미지에 연관된 EXIF 태그들 내에서). 다른 정보는 사용자에 의해 할당되거나, 알고리즘적으로(algorithmically) 할당된다. 이러한 데이터 유형들 각각은 개별적으로 취할 때 상당한 취약점을 가질 수 있다. 예를 들어, 지리적 위치 데이터(geo-location data)(예를 들어, 지오 태그)는 일반적으로 촬영되고 있는 랜드마크가 아니라 카메라의 위치에 기초한다. 또한, 일부 경우들에서, 지리적 위치 정보는 도시 이름과 같이 사용자가 제공한 정보에 기초하며, 따라서 정확하지 않을 수 있다. 작성자 및 제3자에 의해 제공되는 텍스트 태그들은 랜드마크를 정확하게 설명하지 않을 수 있다. 각 이미지에 대한 작성자 정보는 카메라 식별자, 이미지를 캡처한 사람, 또는 이미지를 웹 사이트에 업로드한 사람에 기초할 수 있다. 또한, 작은 영역 내에 수개의 랜드마크가 존재하는 경우, 랜드마크들이 유사하게 보이는 경우, 및/또는 이미지 품질이 충분하지 않은 경우와 같은 상황들에서는, 시각적 일치 정보에 에러가 있을 수 있다. 그러므로, 본 발명의 실시예들은 디지털 이미지 내에서의 고도의 랜드마크 검출 및 정확한 주석달기를 획득하기 위해 몇몇 유형의 이용가능한 정보를 레버리지한다.

자동 랜드마크 인식 및 주석달기를 위한 시스템

본 발명의 실시예에 따라 주석이 달린 인기있는 랜드마크 이미지들의 데이터베이스를 구축하기 위한 시스템(100)이 도 1에 도시되어 있다. 시스템(100)은 컴퓨터(101), 사용자 인터페이스(102), 네트워크들(103 및 104), 텍스트/이미지 문서 컬렉션(107), n 그램 컬렉션(108), n 그램 필터 데이터베이스(109), 주석없는(un-annotated) 이미지들의 데이터베이스(110), 어피어런스 모델들의 데이터베이스(111), 주석이 달린 이미지들(112), 및 텍스트/이미지 소스들(105)을 포함한다. 본 기술분야의 숙련된 자는 시스템(100)이 위에 나열된 것보다 더 많거나 더 적거나 그와 다른 컴포넌트들 및 모듈들을 포함하면서도 본 발명에 일관될 수 있음을 알 것이다.

컴퓨터(101)는 통신 매체에 의해 상호접속되는 하나 이상의 컴퓨터, 서버 또는 유사한 컴퓨팅 장치들을 포함할 수 있다. 예를 들어, 컴퓨터(101)는 이더넷 네트워크, 기가비트 이더넷 네트워크, WIFI 네트워크 또는 그와 유사한 것과 같은 하나 이상의 근거리 네트워크에 의해 연결되는 하나 이상의 상용화된 컴퓨팅 서버를 포함할 수 있다. 컴퓨터(101)는 프로세서(121), 휘발성 메모리(122), 영구적 메모리(123), 네트워크 인터페이스(124), 데이터베이스 인터페이스(125), 컴퓨터(101)의 모듈들을 연결하기 위한 통신 매체(126), 및 자율적 이미지 주석기 모듈(unsupervised image annotator module)(127)을 포함한다. 프로세서(121)는 하나 이상의 상용화된 중앙 처리 유닛(CPU), 그래픽 프로세서 유닛(GPU), 필드 프로그래머블 게이트 어레이(FPGA), 디지털 신호 프로세서(DSP), 및 애플리케이션 특정 집적 회로(ASIC)를 포함할 수 있다. 프로세서(121)는 컴퓨터(101) 내에서의 처리, 컴퓨터(101) 내로의 입력의 수신, 및 컴퓨터로부터의 데이터 출력을 제어한다. 예를 들어, 자율적 이미지 주석기 모듈(127)의 처리 로직은 프로세서(121) 상에서 실행될 수 있다.

휘발성 메모리(122)는 동적 랜덤 액세스 메모리(DRAM), 정적 랜덤 액세스 메모리(SRAM) 또는 그와 유사한 것과 같은 휘발성 메모리를 포함할 수 있다. 휘발성 메모리(122)는 구성 매개변수들, 소스 데이터, 및 모듈(127)의 처리의 중간 결과들을 저장하기 위해 이용될 수 있다. 구성 매개변수들은 텍스트/이미지 소스들(105)에 대한 접속 정보, 및 예를 들어 자율적 이미지 주석기 모듈(127)의 처리의 동작을 구성하는 다른 매개변수들을 포함할 수 있다. 영구적 메모리(123)는 자기 디스크, 광학 디스크, 플래시 메모리, 판독 전용 메모리(ROM) 또는 그와 유사한 것과 같은 하나 이상의 비휘발성 메모리 장치를 포함할 수 있다. 영구적 메모리(123)는 자율적 이미지 주석기 모듈(127)을 위한 로직 명령어들, 및 구성 매개변수들을 저장하기 위해, 그리고 모듈(127) 내에서의 처리의 중간 및 기타 결과를 저장하기 위해 이용될 수 있다.

네트워크 인터페이스(124)는 텍스트/이미지 소스들(105)과 같이, 네트워크(103)를 포함하는 네트워크들을 통해 컴퓨터(101)에 접속되는 엔터티들과 통신하기 위한 기능성을 포함할 수 있다. 예를 들어, 네트워크 인터페이스(124)는, 컴퓨터(101)가 텍스트/이미지 소스들(105)에 접속하여 텍스트 및 이미지 정보를 획득하는 것을 가능하게 하도록, 인터넷 프로토콜(IP) 및 하이퍼 텍스트 전송 프로토콜(HTTP) 처리를 포함하는 처리 컴포넌트들을 포함할 수 있다. 예를 들어, HTTP 프로토콜 처리 머신 소프트웨어는 네트워크 인터페이스(124)의 일부분으로서 구현될 수 있다. 데이터베이스 인터페이스(125)는 본 발명의 실시예들에 따라 랜드마크들에 대하여 이미지를 처리하는 데에 이용되는 하나 이상의 데이터베이스에 컴퓨터(101)를 접속하는 기능성을 포함한다. "데이터베이스"라는 용어의 사용은 반드시 데이터베이스 관리 시스템(DBMS)을 참조하는 것은 아니며, 오히려 임의의 데이터 컬렉션을 포괄하는 것임을 이해해야 한다. 그러므로, 데이터베이스 인터페이스(125)는 하나 이상의 데이터베이스(107-112) 또는 각 유형의 데이터베이스(107-112) 중의 데이터베이스 유형과 통신하기 위한 처리 로직을 포함하는 하나 이상의 DBMS 시스템에 접속하기 위한 DBMS 기능성을 포함할 수 있다. 통신 매체(126)는 모듈들(121-125 및 127)을 포함하는 컴퓨터(101)의 모듈들을 접속할 수 있다. 통신 매체(126)는 PCI 버스, USB, 이더넷 또는 그와 유사한 것과 같은 통신 장치들을 포함할 수 있다.

자율적 이미지 주석기 모듈(127)은 본 발명의 실시예에 따라 랜드마크들을 식별하고, 선택된 랜드마크들에 대한 어피어런스 모델들을 생성하고, 이미지들에 주석을 달기 위한 기능성을 포함한다. 이미지들 내에 포함된 랜드마크들은 이미 이미지에 연관되어 있는 명시적인 태그들에 기초하여, 또는 이하에 설명되는 것과 같은 알고리즘적 수단을 통해 식별될 수 있다. 자율적 이미지 주석기 모듈(127)의 기능성은 소프트웨어, 펌웨어, 하드웨어 또는 그들의 임의의 조합으로 구현될 수 있다. 일 실시예에서, 자율적 이미지 주석기 모듈(127)의 기능성을 위한 처리 로직은 C, C++, 어셈블리, 자바, 자바스크립트, 펄 또는 그와 유사한 것과 같은 컴퓨터 프로그래밍 언어 또는 스크립트 언어로 구현될 수 있다.

네트워크들(103)은 컴퓨터(101)를 하나 이상의 텍스트/이미지 소스(105)에 접속하는 수단을 포함할 수 있다. 네트워크(104)는 컴퓨터(101)를 하나 이상의 데이터베이스(107-112)에 접속하는 수단을 포함할 수 있다. 네트워크들(103 및 104)은 USB, 파이어와이어와 같은 주변장치 접속, 또는 이더넷, WIFI와 같은 근거리 네트워크, 또는 PSTN 또는 인터넷과 같은 광역 네트워크를 포함하는 하나 이상의 네트워크 매체를 포함할 수 있다. 일 실시예에서, 네트워크(103)는 인터넷을 포함하고, 네트워크(104)는 이더넷 기반 근거리 네트워크를 포함한다.

사용자 인터페이스(102)는 PCI 버스, IEEE 1394 파이어와이어 인터페이스, 이더넷 인터페이스, IEEE 802.11 인터페이스, 또는 그와 유사한 것과 같은 상호접속 메커니즘들 중 임의의 것 또는 그들의 조합을 이용하여 하나 이상의 컴퓨터(101)에 접속될 수 있다. 사용자 인터페이스(102)는 사용자 또는 다른 외부 엔터티가 컴퓨터(101)와 상호작용하는 것을 허용한다. 일부 실시예들에서, 하나 이상의 데이터베이스(107-112)도 사용자 인터페이스(102)를 통해 상호작용될 수 있다. 그래픽 사용자 인터페이스, 웹 인터페이스 및 애플리케이션 프로그래밍 인터페이스 중 하나 이상이 사용자 인터페이스(130) 내에 포함될 수 있다.

텍스트/이미지 소스들(105)은 랜드마크들 및 관련 텍스트의 이미지들(예를 들어, 랜드마크 태그된 이미지들)을 포함하는 다양한 유형의 디지털 문서 컬렉션을 포함할 수 있다. 일 실시예에서, 텍스트/이미지 소스들(105)은 캡션 및 태그들에 연관된 사진들을 갖는 하나 이상의 사진 컬렉션을 포함한다. 여기에서 이용될 때의 캡션은 사진에 할당된 제목을 참조한다. 여기에서 이용될 때의 태그는 사진에 할당된 하나 이상의 단어 또는 구문을 참조한다. 종종, 태그뿐만 아니라 캡션도 사진의 작성자(예를 들어, 사진의 최초 창시자, 또는 사진공유 웹사이트에 사진을 업로드한 사람)에 의해 할당된다. 그러나, 캡션 및 태그는 제3자 또는 자동화된 도구에 의해서도 사진에 할당될 수 있다. 각각이 별도로 식별되지 않는 한, 이하의 설명에서의 "태그"라는 용어는 태그는 물론 캡션도 포함한다.

또한, 텍스트/이미지 소스들(105)은 이미지들을 문서들에 하이퍼링크하는 (그리고 그 반대로 하는) 하이퍼텍스트 문서들의 컬렉션들을 포함할 수 있으며, 또한 신문 코퍼스, 잡지 및 저널 코퍼스, 블로그 아카이브, 디지털화된 책들을 갖는 디지털 도서관, 제3자 주석된 사진 보관소, 및 개인용 및 사업용 웹사이트를 포함할 수 있다. 예를 들어, 관광 및/또는 여행 관련 웹사이트, 디지털 여행 가이드, 도시 웹사이트 등은 일반적으로 랜드마크들의 이미지 및 그러한 랜드마크들의 설명을 포함하는 몇몇 자원들이다. 그러나, 하나 이상의 이미지와 관련 텍스트 간의 상관관계가 도출될 수 있는 어떠한 디지털 데이터 컬렉션이라도 텍스트/이미지 소스들(105) 내에 포함될 수 있다.

일부 실시예들에서, 텍스트/이미지 컬렉션(107)은 예를 들어 자율적 이미지 주석기(127)에 의한 처리를 위한 더 편리하고 신뢰가능한 액세스를 위해 원래 원격 텍스트/이미지 소스들(105) 내에서 액세스된 텍스트/이미지 데이터의 로컬 사본 및/또는 수정된 버전들이 저장되는 데이터베이스이다. 예를 들어, 인터넷과 같은 광역 네트워크일 수 있는 네트워크(103)를 통해 텍스트/이미지 소스들(105) 내의 데이터 및 이미지들에 액세스하는 것은 긴 레이턴시를 수반할 수 있으므로, 텍스트/이미지 컬렉션(107) 내와 같이, 로컬의 또는 로컬로 부속된 네트워크 위치 내에 그러한 데이터 및 이미지들의 사본을 만드는 프로세스(도시되지 않음)가 컴퓨터(101) 내에 존재할 수 있다. 또한, 텍스트/이미지 컬렉션(107)은 예를 들어 Picasa 웹 앨범 내의 사용자 사진 컬렉션과 같이 이미 태그가 달려있는 이미지들의 컬렉션, 및/또는 본 발명의 교시에 따라 이미 처리된 이미지 컬렉션들을 포함할 수 있다. 일부 실시예들에서, 텍스트/이미지 컬렉션(107)은 각 이미지에 대응하는 데이터 구조를 포함할 수 있는데, 여기에서 데이터 구조는 예를 들어 텍스트/이미지 소스들(105)로부터 이미지 및/또는 문서들의 별개의 사본을 만들 필요가 없게 하기 위해, 텍스트/이미지 소스들(105) 내의 이미지들 및/또는 문서들에 대한 하나 이상의 포인터를 포함한다.

n 그램 컬렉션(108)은 n 그램들의 컬렉션을 포함하는 데이터베이스이다. n 그램들은 예를 들어 텍스트/이미지 컬렉션(107) 또는 텍스트/이미지 소스들(105) 내의 이미지들에 연관된 캡션들, 태그들 또는 텍스트 문서들로부터 추출될 수 있다. 여기에서 이용될 때, n 그램은 하나 이상의 단어의 시퀀스이다. n 그램들의 선택은 예를 들어 텍스트 분석에서 이용되는 몇몇 기술들 중 하나 이상과 유사한 방법들을 이용하여 행해질 수 있다. 본 발명의 실시예들에 따른 n 그램들의 선택 및 추출은 이하에 더 설명된다.

n 그램 필터 데이터베이스(109)는 n 그램 컬렉션(108)으로부터 필터링되어질 n 그램들의 하나 이상의 목록, 및/또는 n 그램 컬렉션(108)에 적용될 하나 이상의 필터링 규칙을 포함한다. 예를 들어, n 그램 필터 데이터베이스(109) 내의 한 목록은 "불량 단어 목록(bad words list)"일 수 있는데, 여기에서 불량 단어 목록 내에 나타내는 n 그램들은 텍스트/이미지 컬렉션(107) 또는 텍스트/이미지 소스들(105)로부터 추출되지 않으며, n 그램 컬렉션(108) 내에 존재하는 것으로 밝혀지는 경우에 그로부터 제거된다. 다른 목록은 이미지 연관된 텍스트 내에서 지나치게 빈번하게 발생하며, 따라서 랜드마크 식별자로서의 가치를 거의 갖지 않는 n 그램들의 목록일 수 있다. "the" 및 "of"와 같은 단어들이 이러한 범주 내에 드는 것으로 고려될 수 있다. 다른 목록은 지나치게 빈번하게 나타나서 차별적인 랜드마크 식별자들로서 충분히 유용하지 않은 것으로 알려진 구문들의 목록일 수 있다.

주석없는 이미지 데이터베이스(110)는 아직 본 발명의 실시예들에 따라 주석이 달려져야 하는(예를 들어, 태그가 달려져야 하는) 이미지들을 포함한다. 예를 들어, 주석없는 이미지 데이터베이스(110)는 본 발명의 실시예를 이용하여 처리되기 위해 하나 이상의 사용자에 의해 업로드된, 태그가 달려있지 않은 디지털 이미지들을 포함할 수 있다.

어피어런스 모델 데이터베이스(111)는 이미지들, 예를 들어 주석없는 이미지 데이터베이스(110) 내의 이미지들 내의 랜드마크들을 인식하기 위해 도출되는 인식 모델들(여기에서는 어피어런스 모델이라고 칭해짐)을 보유한다.

주석이 달린 이미지 데이터베이스(112)는 본 발명의 실시예들에 따라 주석이 달린 이미지들을 포함한다. 예를 들어, 주석없는 이미지 데이터베이스(110)로부터의 이미지들은 본 발명의 실시예에 따라 자율적 이미지 주석기(127)에 의해 처리된 후에, 주석이 달린 이미지 데이터베이스(112) 내에 저장된다. 본 기술분야에 숙련된 자는, 비록 위에서는 데이터베이스들(107-112)이 별개의 데이터베이스들로서 설명되었지만, 데이터베이스들(107-112)이 본 발명에 일관되는 다양한 방식들로 배열 및/또는 구현될 수 있음을 인식할 것이다.

도 2는 본 발명의 실시예에 따른 자율적 이미지 주석기 모듈(127)을 더 상세하게 도시한 것이다. 본 실시예에서, 자율적 이미지 주석기 모듈(127)은 3개의 처리 모듈, 즉 랜드마크 식별기(201), 어피어런스 모델 생성기(202) 및 이미지 주석기(203)를 포함한다. 모듈들(201, 202 및 203)은 소프트웨어, 펌웨어, 하드웨어 또는 그들의 조합으로 구현될 수 있다. 일 실시예에서, 모듈들(201-203)은 C++ 프로그래밍 언어를 이용하여 소프트웨어로 구현된다. 일 실시예에서, 컴퓨터 프로그램 제품은 하드디스크, 플래시 디스크 또는 다른 형태의 저장소와 같은 컴퓨터 판독가능 매체 상에 기록된 모듈들(201-203)의 컴퓨터 프로그램 로직을 포함하는 로직을 가질 수 있다.

랜드마크 식별기 모듈(201)은 텍스트/이미지 컬렉션들(107) 및/또는 텍스트/이미지 소스들(105) 내의 랜드마크들을 식별하기 위한 기능성을 포함한다. 일 실시예에서, 랜드마크 식별자 모듈(201)은 텍스트/이미지 소스들(105)로부터의 이미지들 및 관련 텍스트를 입력으로서 이용하고, 그러한 이미지들 및 관련 텍스트를 텍스트/이미지 컬렉션(107)에 복사할 수 있다. 랜드마크 식별기 모듈(201)은 또한 n 그램 컬렉션(108)을 이용하고 업데이트하면서, 텍스트/이미지 소스들(105) 내의 텍스트를 분석할 수 있다. n 그램 필터 데이터베이스(109)는 또한 랜드마크 식별기 모듈(201) 내에서의 처리에서 이용될 수 있다.

어피어런스 모델 생성기(202)는 예를 들어 랜드마크 식별기 모듈(201)에 의해 식별된 각 랜드마크에 대해 하나 이상의 어피어런스 모델을 생성하기 위한 기능성을 포함한다. 일례에서, 어피어런스 모델 생성기(202)는 텍스트/이미지 컬렉션(107) 내의 이미지들 및 식별된 랜드마크들을 입력으로서 취하고, 랜드마크들 각각에 대하여 하나 이상의 어피어런스 모델을 생성할 수 있다. 생성된 어피어런스 모델들은 어피어런스 모델 데이터베이스(111)에 기입될 수 있다.

여기에서 이용될 때의 어피어런스 모델은 이미지들 내의 특정한 공통 특징들의 자동 인식에서 이용될 템플릿이다. 본 발명의 일 실시예에서, 랜드마크의 인식을 위해 이용되는 어피어런스 모델은 미리 결정된 이미지 특징들의 집합에 대한 수치 스코어(numerical scores)를 포함하는 특징 벡터(feature vector)를 포함할 수 있다. 이미지들 내에서의 개체 인식 및 특징 벡터들의 생성을 위한 방법은 본 기술분야에 공지되어 있다. 예를 들어, 이미지들 내에서의 개체 인식을 위한 방법은 David G. Lowe의 "Object recognition from local scale-invariant features"(International Conference on Computer Vision, Corfu, Greece, 1999년 9월, 1150-1157 페이지)에 설명되어 있다. 시각적 인식 컴포넌트들에 더하여, 어피어런스 모델은 대응하는 랜드마크를 위한 지리적 위치 정보와 같은 정보도 포함할 수 있다. 예를 들어, 특정한 랜드마크를 위한 어피어런스 모델 내의 지리적 위치 정보는 지리적 포인트 및/또는 지리적 영역을 특정할 수 있다. 지리적 영역을 특정하는 것은 이미지들의 지리적 위치 정보의 정확도에서의 변화로 인해 생성되는 불확실성을 감소시킬 수 있다.

이미지 주석기 모듈(203)은 이미지들 내의 랜드마크들을 자동으로 인식하고, 하나 이상의 대응하는 랜드마크를 식별하는 정보로 그러한 이미지들에 적절하게 주석을 달기 위한 기능성을 포함한다. 일 실시예에서, 이미지 주석기 모듈(203)은 주석없는 이미지 데이터베이스(110)로부터의 이미지들 내에서 랜드마크들을 자동으로 인식하기 위해, 어피어런스 모델 데이터베이스(111)로부터의 어피어런스 모델들을 이용할 수 있다. 그러면, 이미지들은 예를 들어 각 이미지 내의 인식된 랜드마크들에 따라 하나 이상의 태그를 연관시킴으로써 주석이 달릴 수 있고, 주석이 달린 이미지들은 주석이 달린 이미지 데이터베이스(112)에 기입될 수 있다.

자동 랜드마크 인식 및 주석달기를 위한 방법

도 3은 본 발명의 실시예에 따라 하나 이상의 인기있는 랜드마크를 포함하는 이미지에 주석을 다는 프로세스(300)를 도시한 것이다. 프로세스(300)는 예를 들어 자율적 이미지 주석기 모듈(127) 내에서 구현될 수 있다. 프로세스(300)의 단계들(301-304)은 적절한 대로, 랜드마크 식별기 모듈(201), 어피어런스 모델 생성기 모듈(202), 및 이미지 주석기 모듈(203) 내에서 구현될 수 있다. 본 기술분야에 숙련된 자는 프로세스(300)에 관련하여 여기에 설명되는 기능성이 아래에 설명되는 것과는 다른 방식으로 모듈들(201-203)을 이용하여 구현될 수 있음을 이해할 것이다. 예를 들어, 일 실시예에서, 랜드마크 식별기 모듈(201), 어피어런스 모델 생성기 모듈(202) 및 이미지 주석기 모듈(203)은 각각, 함께 모여 프로세스(300)를 구현하는 별개의 프로세스들일 수 있다. 다른 실시예에서, 랜드마크 식별기 모듈(201), 어피어런스 모델 생성기 모듈(202) 및 이미지 주석기 모듈(203)은 각각, 함께 모여 프로세스(300)를 구현하는 별개의 스레드일 수 있다. 또 다른 실시예에서, 랜드마크 식별기 모듈(201), 어피어런스 모델 생성기 모듈(202) 및 이미지 주석기 모듈(203)은 모두 프로세스(300)를 구현하는 단일 프로세서로서 구현될 수 있다.

단계(301)에서, 이미지들 및 그러한 이미지들에 관련된 텍스트는 랜드마크들, 특히 인기있는 랜드마크들을 식별하기 위해 분석된다. 일반적으로, 인기있는 랜드마크들은 텍스트/이미지 소스들(105)과 같은 분석된 이미지/텍스트 소스들에서 가장 빈번하게 나타나는 랜드마크들이다. 일 실시예에서, 단계(301)에서의 처리로의 입력은 프로세스(300)가 실행되고 있는 하나 이상의 컴퓨터가 액세스할 수 있는 하나 이상의 이미지/텍스트 소스이다. 예를 들어, 프로세스(300)는 컴퓨터(101) 상에서 실행되고 있을 수 있으며, 네트워크(103)를 통해 텍스트/이미지 소스들(105)로의 액세스가능성을 가질 수 있다. 일 실시예에 따르면, 단계(301)로부터의 출력은 이미지들의 선택된 집합, 그러한 이미지들 내의 식별된 랜드마크들, 및 관련된 텍스트 및 n 그램들일 수 있다. 예를 들어, 단계(301)의 출력은 텍스트/이미지 컬렉션(107) 내에 기입될 수 있다. 단계(301)는 이하에서 도 4 내지 도 6에 관련하여 더 설명된다.

단계(302)에서, 하나 이상의 어피어런스 모델이 단계(301)에서 식별된 랜드마크들에 대해 도출 또는 학습된다. 본 기술분야에 숙련된 자는 단계(301)의 결과로서 획득된 랜드마크 태그된 이미지들로부터 어피어런스 모델을 학습하기 위해, 다수의 방법 중 하나가 이용될 수 있음을 인식할 것이다. 일 실시예에 따르면, 특정 랜드마크를 위한 어피어런스 모델은 그 특정 랜드마크를 포함하는 것으로 고려되는 하나 이상의 이미지의 하나 이상의 시각적 양태를 수치적으로 정량화하는 특징 벡터를 포함한다. 앞에서 설명된 바와 같이, 특징 벡터 생성은 본 기술분야에 공지되어 있으며, 본 발명에서 이용될 수 있는 것과 같은 특징 벡터 생성을 위한 접근법은 위에서 인용된 David G. Lowe의 "Object recognition from local scale-invariant features"에 설명되어 있다. 예를 들어, 특징 벡터는 이상적으로 카메라 거리, 카메라 각도, 이미지 품질, 조명 조건 등과 같은 다수의 다양한 조건들에 대해 비교적 변하지 않는 상당한 수의 특징들을 포함한다. 본 발명의 일부 실시예들에서, 특정 이미지에 대응하는 하나 이상의 어피어런스 모델은 또한 지리적 위치 정보와 같은 이미지의 비-시각적 양태들을 포함할 수 있다. 어피어런스 모델은 이미지들 내에서의 특정 랜드마크의 존재를 자동으로 인식하는 데에 이용될 수 있는, 특정 랜드마크의 시각적 특성들 및 지리적 위치 정보를 포함하는 임의의 정보를 포함할 수 있다.

단계(303)에서, 단계(302) 내에서 획득되는 하나 이상의 어피어런스 모델은 이미지들 내에서 대응하는 랜드마크를 검출하기 위해 이용된다. 일 실시예에서, 어피어런스 모델 데이터베이스(111) 내의 하나 이상의 어피어런스 모델은 주석없는 이미지 데이터베이스(110) 내에서의 대응하는 랜드마크의 검출에서 이용된다. 예를 들어, 어피어런스 모델 데이터베이스(111)로부터의 어피어런스 모델의 특징 벡터들은 고려되고 있는 주석없는 이미지 데이터베이스(110)로부터의 이미지들에 대해 생성된 특징 벡터들에 비교될 수 있다. 특징 벡터들이 미리 결정된 임계 레벨을 넘어서 일치하는 경우, 고려되고 있는 이미지는 일치되는 어피어런스 모델에 대응하는 랜드마크를 포함하는 것으로 인식된다. 본 발명의 실시예에서 단계(303)에서 이용될 수 있는 것과 같은 개체 인식 기술은 일반적으로 공지되어 있다. 본 발명에서 이용될 수 있는 개체 인식에 대한 한 접근법은 위에서 인용된 Lowe의 "Object recognition from local scale-invariant features"에 설명되어 있다.

단계(304)에서, 분석되고 있는 이미지는, 그것이 예를 들어 단계(303)에서의 검출에서 이용된 하나 이상의 어피어런스 모델에 대응하는 특정 랜드마크를 그 내부에 가지고 있는 것으로 결정되는 경우에 주석이 달려질 수 있다. 주석이 달린 이미지들 및 각각의 주석들은 주석달린 이미지 데이터베이스(112)에 기입될 수 있다. 주석이 달린 이미지에 연관된 주석은 그 주석이 달린 이미지 내에서 일치를 갖는 것으로 발견된 어피어런스 모델들 중의 각 모델에 연관된 텍스트를 포함할 수 있다. 또한, 주석이 달린 이미지에 연관된 주석들이 대응하는 어피어런스 모델들에 연관된 텍스트의 추가의 처리에 기초하는 텍스트 또는 구문들을 포함할 수 있음이 고려된다. 예를 들어, 대응하는 어피어런스 모델들에 연관된 텍스트가 "다비드상" 및 "로마"와 같은 단순한 태그의 형태로 되어 있는 실시예에서, 단계(304)는 "이탈리아 로마의 다비드상", "이탈리아 로마의 팔라시오 베키오의 다비드상" 또는 그와 유사한 것과 같은 문장을 생성하기 위한 추가의 처리를 포함할 수 있다.

도 4에서, 단계(301)에 수반되는 처리가 더 상세하게 도시되어 있다. 단계(301)의 기능성은 단계(401-403)를 포함한다. 단계(401)에서, 랜드마크들을 설명하는 단어들 또는 구문들의 n 그램 집합이 생성되고/거나 기존의 n 그램 집합이 갱신된다. 예를 들어, 단계(401)는 텍스트/이미지 소스들(105)을 입력으로서 취하고, n 그램 컬렉션(108) 내의 n 그램들을 출력으로서 생성할 수 있다. 랜드마크들을 설명하는 하나 이상의 n 그램이 어떻게 생성되는지와 같은 단계(401)의 더 상세한 설명이 아래에서 도 5에 관련하여 제공된다.

단계(402)에서, 랜드마크 결정에 대해 유용한 것으로서 예비적으로 고려되는 n 그램들의 집합의 스코어가 정해진다. 예를 들어, 단계(402)에서 고려되는 n 그램들의 초기 집합은 단계(401)에서 텍스트/이미지 소스들(105)로부터 도출되는 n 그램들의 집합일 수 있다. 단계(402)의 처리는 n 그램 컬렉션(108) 내의 n 그램들의 목록을 생성할 수 있다. n 그램들은 각각의 n 그램의 스코어가 정해지게 하고 가장 높은 스코어를 갖는 미리 결정된 수의 n 그램만을 유지하는 것을 포함하는 다양한 기준에 따라 필터링된다. n 그램 스코어 S(k)는 n 그램 컬렉션(108) 내의 n 그램들 N(k) 각각에 할당된다. S(k)를 결정하는 방법이 이하에 설명된다. 단계(402)의 처리는 이하에서 도 6을 참조하여 더 설명된다.

단계(403)에서, 이미지들은 n 그램 컬렉션(108)으로부터의 태그들을 할당받는다. 예를 들어, 이미지 및 n 그램 조합의 각 쌍에 대해, 페어링 스코어(pairing-score)가 할당될 수 있다. 페어링 스코어는, 더 높은 값의 페어링 스코어가 강하게 관련된 이미지 및 n 그램 쌍을 암시하도록 정의될 수 있다. 일례에서, 이미지/텍스트 컬렉션(107)으로부터의 이미지 I(i) 및 n 그램 컬렉션(108)으로부터의 n 그램 N(k)에 의해 형성되는 쌍은 I(i) 및 N(k) 간의 링크의 강도 L(i,k)와 N(k)의 n 그램 스코어의 곱, 즉 L(i,k)*S(k)에 의해 정의되는 페어링 스코어를 할당받을 수 있다. L(i,k)를 결정하는 방법이 이하에 설명된다. 후보 n 그램들의 목록은 높은 페어링 스코어를 갖는 n 그램들에 초점을 맞추고, 목록을 적절하게 절단하는 것에 의해 생성될 수 있다. 한 경우에서, 목록은 페어링 스코어가 목록 내의 최고 페어링 스코어의 절반 미만으로 떨어질 때 절단될 수 있다. 이러한 방식으로, 각각의 이미지는 가장 관련있는 n 그램들을 할당받을 수 있다.

도 5는 위에서 설명된 단계(401)를 따른 n 그램들의 집합의 생성에서의 처리 단계들(501-504)을 도시한 것이다. 단계(501)에서, 하나 이상의 텍스트/이미지 소스(105)가 예를 들어 랜드마크 식별기 모듈(201)에 의해 액세스된다. 텍스트/이미지 소스들(105)의 액세스는 로컬 네트워크를 통해, 또는 인터넷과 같은 광역 네트워크를 통해 그러한 소스들에 접속하는 것을 포함할 수 있다. 처리되도록 선택된 텍스트/이미지 소스들(105)은 사용자들 또는 운영자들로부터의 입력, 프로그램 컴포넌트들에 의한 웹 사이트의 자동 식별 및 분류(예를 들어, 웹 봇들에 의한 사진 보관소 웹 사이트들의 식별), 또는 콘텐츠에 대해 모니터링되는 웹 사이트들 또는 기타 보관소들의 목록과 같은 다양한 방법들에 기초하여 식별될 수 있다. 텍스트/이미지 소스들(105)과 같은 소스들에 접속하는 방법은 잘 알려져 있다. 필요한 경우, 본 발명의 구현은 다양한 당사자가 소유하는 이미지들의 사용에 수반될 수 있는 저작권, 프라이버시 등의 양태들도 고려해야 한다.

단계(502)에서, 잠재적인 랜드마크 설명자 n 그램들의 목록은 텍스트/이미지 소스들(105) 내의 이미지들에 연관된 텍스트로부터 검색된다. 사진들이 태그들 및/또는 캡션들과 연관되어 있는 사진 보관소들로부터의 n 그램들의 추출은, 텍스트/이미지 소스(105)의 사진 보관소들의 사진들에 연관된 태그들 및/또는 캡션들의 집합의 수집을 포함할 수 있다. 이미지/텍스트 소스들이 이미지들을 대응하는 텍스트에 연관시키는 다른 문서들 및/또는 콘텐츠를 포함하는 경우, 랜드마크들에 잠재적으로 대응하는 용어들(태그들)을 추출하기 위해 다수의 텍스트 분석 방법들 중 하나 이상이 이용될 수 있다. 예를 들어, 관광 웹사이트 내의 이미지에 연관된 텍스트는, 잠재적인 태그들을 식별하기 위해 이용가능한 텍스트에 걸쳐 TF-IDF(term-frequency-inverse document frequency)와 같이 본 기술분야에 공지된 방법을 이용하여 자동적으로 분석될 수 있다. 일 실시예에서, TF-IDF는 텍스트/이미지 소스(105)로부터의 사진 보관소 내의 사진들에 연관된 태그들에 적용된다.

잠재적으로 많은 수의 이용가능한 태그들로부터, 랜드마크들을 참조하는 태그들의 좁혀진 및/또는 필터링된 집합을 결정하기 위해, 미리 결정된 규칙들이 적용될 수 있다. 예를 들어, 단계(503)에서, 하나 이상의 필터링 규칙 또는 기준이 단계(502)에서 수집된 잠재적인 랜드마크 설명자들의 n 그램들의 집합에 적용될 수 있다. 잠재적인 랜드마크 설명자 n 그램들의 목록에 적용될 수 있는 한 필터는 불량 단어 필터(bad words filter)이다. 불량 단어 필터는 랜드마크들 간을 구별하는 데에 좋지 않고/않거나 도움이 되지 않는 것으로서 미리 결정된 n 그램들 및 구문들의 목록을 포함한다. 적용되는 다른 필터는 정지 단어 목록(stop word list)이다. 정지 단어 목록은 태그들 및/또는 설명자들 내에서 너무 빈번하게 발생하여 랜드마크 설명자들로서 도움이 될 가능성이 적을 것으로 예상되는 n 그램들을 포함할 수 있다. "of", "the" 및 "and"와 같은 단어들은 정지 단어 목록 내에 포함될 수 있는 예시적인 n 그램들이다. 적용될 수 있는 다른 필터는 최소 작성자 수 필터(minimum number of authors filter)와 같은 최소 신뢰도 척도(minimum reliability measure)이다. 최소 작성자 수 필터는, 잠재적인 랜드마크 설명자 n 그램들의 목록으로부터, 자신의 태그 내에서 해당 n 그램을 이용하는 고유 작성자의 수가 미리 결정된 수보다 적은 임의의 n 그램들을 제거하기 위해 이용될 수 있다. 예를 들어, 임의의 n 그램이 n 그램 컬렉션(108) 내에 포함되기 위해서는, 그 n 그램이 3 이상의 고유 작성자에 의해 이용되는 태그들 내에서 검출되어야 하는 것으로 미리 결정될 수 있다.

단계(504)에서, 하나 이상의 규칙 및/또는 필터가 단계(503)에서 적용되고 난 후에 남은 잠재적인 랜드마크 설명자 n 그램들의 목록이 n 그램 컬렉션(108) 내에 기입될 수 있다. 처리 단계(402)와 같은 후속 처리 단계들에 의해 이용되는 n 그램 컬렉션(108)으로부터의 n 그램들의 집합은 위에서 설명된 것과 같은 몇몇 필터에 따라 필터링된 n 그램들의 집합이고, 따라서 실질적으로 랜드마크들을 설명하는 n 그램들만을 포함할 것이다.

도 6은 일 실시예에 따라, 단계(402)에 수반되는 처리를 나타내는 단계(601-608)를 도시한 것이다. 단계(601)에서, 단계(401)에서 선택된 n 그램들에 연관된 이미지들은 상관관계 가중치들(correlation-weights)을 할당받는다. 일 실시예에서, 단계(401)에서 선택된 n 그램들에 연관된 이미지들은 텍스트/이미지 컬렉션(107) 내에 복사되고, 가중치 할당 및 추가의 처리가 그러한 이미지들에 대해 수행된다. 이미지 I(i)의 상관관계 가중치 W(i)는 텍스트/이미지 컬렉션(107) 내의 다른 이미지들에 대한 이미지 I(i)의 상관관계 레벨의 역 척도(inverse measure)이다. 예를 들어, 이미지 I(i)가 텍스트/이미지 컬렉션(107) 내의 임의의 다른 이미지들에 상관관계를 갖지 않는 경우, 이미지 I(i)는 상관관계 가중치 1을 할당받고, 이미지 I(i)가 텍스트/이미지 컬렉션(107) 내의 2개의 다른 이미지에 상관관계를 갖는 경우, 이미지 I(i)와 그것의 2개의 상관관계를 갖는 이미지 각각은 1/3의 상관관계 가중치를 할당받는다. 2개의 이미지가 상관관계를 갖는지를 결정하기 위해, 규칙들 또는 기준의 미리 결정된 집합이 이용될 수 있다. 예를 들어, 2개의 이미지가 동일한 작성자에 의해 매우 가까운 지리적 위치(예를 들어, 서로로부터 1/4 마일 이내)에서 촬영될 때, 그들은 상관관계를 갖는 것으로 고려될 수 있다.

단계(602)에서, 예를 들어 텍스트/이미지 컬렉션(107) 내의 이미지들로부터 일치 이미지 그래프(matching images graph)가 생성된다. 일치 이미지 그래프 내의 노드들은 텍스트/이미지 컬렉션(107) 내의 이미지들을 표현한다. 일치 이미지 그래프 내의 각 에지는 2개의 접속된 노드에 대응하는 이미지들이 일치하는 정도를 나타낸다. 예를 들어, 이미지들 I(i)와 I(j) 간의 에지에 할당되는 일치 스코어 M(i,j)는 이미지 I(i)의 특징 벡터와 이미지 I(j)의 특징 벡터 간의 일치에 기초하여 도출되는 수치값일 수 있다. 특징 벡터들 내의 개별 특징들은 설정가능한 가중치들(configurable weights)을 할당받을 수 있으며, 일치 스코어 M(i,j)는 일치하는 특징들의 그러한 가중치들의 합산일 수 있다.

단계(603)에서, n 그램 컬렉션(108) 내의 n 그램들 각각과 텍스트/이미지 컬렉션(107) 내의 이미지들 간에 링크들(이미지-이름 링크들로 칭해짐)이 형성된다. 이미지-이름 링크는, n 그램이 이미지들의 태그들에 의해 포함되는 경우에는 1로 설정되고 그렇지 않으면 0으로 설정되는 2진 변수일 수 있다. 그러나, 결과들의 강건성(robustness)을 증가시키기 위해, 단일 이미지들을 고려하기보다는 시각적으로 유사한 이미지들의 집합에 걸쳐 평균을 구하는 것에 의해 출력이 평활화된다. 예를 들어, 이미지 I(i)와 n 그램 k 간의 이미지-이름 링크 L(i,k)는 아래와 같이 정의될 수 있다:

여기에서, 위에서 언급된 바와 같이, M(i,j)는 이미지 일치 그래프 내의 이미지 I(i)와 I(j) 간의 일치 스코어이고, W(j)는 이미지 I(j)의 상관관계 가중치이다.

단계(604)에서, 텍스트/이미지 컬렉션(107) 내의 각 이미지의 지리적 신뢰도가 추정된다. 이미지 I(i)의 지리적 신뢰도 G(i)는 서로에 대해 미리 결정된 거리 내에 있는 지리적 위치 좌표들을 갖는 이미지들의 시각적 일관성(visual consistency)의 비교에 기초하는, 이미지의 지리적 위치 정보의 정확도의 추정이다. 예를 들어,

이고, n은 설정가능한 매개변수일 수 있다.

단계(605)에서, 각각의 n 그램 N(k)에 대해, 지리적 분산이 선택적으로 계산될 수 있다. 예를 들어, N(k)의 지리적 분산 V(k)는 다음과 같이 표현될 수 있다:

여기에서 loc(i)는 이미지 I(i)의 지리적 위치를 표현하고, EW는 가중된 기대치(weighted expectation)이다. 가중된 기대치는 n 그램에 대하여 가장 중요한 위치 포인트들의 분산을 캡처하는 데에 도움이 된다. 가중치들은

로서, 즉 이미지-이름 링크, 이미지 가중치 및 이미지의 지리적 신뢰도의 곱으로서 계산될 수 있다. 후속하여, 임계 지리적 분산보다 큰 V(k)를 갖는 n 그램들은 n 그램 컬렉션(108)으로부터 필터링되어질 수 있다.

단계(606)에서, 텍스트/이미지 컬렉션(107) 내의 각각의 n 그램 N(k)의 n 그램 스코어 S(k)는 그것의 태그 내에 n 그램 N(k)를 갖는 이미지들 간의 내부 링크 강도와, 그것의 태그 내에 n 그램 N(k)를 갖는 이미지들과 그것의 태그 내에 n 그램 N(k)를 갖지 않는 이미지들 간의 외부 링크 강도를 캡처하도록 설계된 척도를 이용하여 결정된다. 예를 들어, S(k)는 아래와 같이 표현될 수 있다:

S(k)가 클수록, n 그램 N(k)가 유의미하고 시각적으로 구별가능한 엔터티를 참조할 가능성이 더 높고, 따라서 랜드마크 이름일 가능성도 더 높다.

단계(607)에서, n 그램들의 스코어가 정해진 후, 가장 인기있는 랜드마크 n 그램들을 식별하기 위해 추가의 필터링이 선택적으로 구현될 수 있다. 예를 들어, 임계 평균 스코어를 결정하기 위해, 최고 n 그램 스코어들을 갖는 미리 결정된 수의 n 그램들의 n 그램 스코어의 평균이 구해질 수 있다. 그 다음, 임계 평균 스코어보다 더 높은 스코어를 갖는 n 그램들 이외의 모든 n 그램이 n 그램 컬렉션(108)으로부터 제거될 수 있다.

단계(608)에서, 동일한 랜드마크 위치를 참조하는 것으로 고려되는 n 그램들이 병합된다. 스코어 정하기 단계, 및 스코어들에 기초하는 후속 필터링은 일반적으로 랜드마크를 유의미하게 참조하는 n 그램들의 목록을 남기지만, 동일한 랜드마크를 참조하는 다수의 n 그램이 여전히 n 그램 컬렉션(108) 내에 남아있을 수 있다. 동일한 랜드마크를 참조하는 복수의 n 그램은, 동일한 랜드마크에 대한 상이한 이름들, 동일한 이름의 상이한 표현들(formulations), 및 부분문자열 절단(substring truncation)을 포함하는 몇몇 이유들로 인해 존재할 수 있다. 그러한 중복된 n 그램들을 유의미한 방식으로 함께 병합하는 것이 바람직할 것이다. 일례에서는, 이를 해결하기 위해, 2개의 n 그램 N(k) 및 N(l)이 그들의 스코어를 서로로부터 미리 결정된 거리 내에 갖는 경우, 그리고 그들이 링크되어 있는 이미지들이 실질적으로 중첩되는 경우, 2개의 n 그램 N(k) 및 N(l)은 병합된다. 이미지들의 실질적인 중첩은 예를 들어 각각의 이미지 I(i) 및 n 그램 N(k) 쌍에 대해 L(i,k)의 Bhattacharya 거리를 고찰하고, Bhattacharya 거리가 미리 결정된 임계치를 초과하는지를 결정하는 것에 의해 결정될 수 있다. Bhattacharya 거리의 계산은 본 기술분야에 공지되어 있다.

결론

모듈(127) 및/또는 모듈들(201-203)의 처리 기능성은 소프트웨어, 하드웨어, 또는 그들의 조합으로 달성될 수 있다. 예를 들어, 모듈들(201 및 203)은 전체적으로 소프트웨어 모듈들로서 구현될 수 있고, 또는 어피어런스 모델 생성기 모듈(202)의 기능성의 일부가 FPGA(field programmable gate array)와 같은 하드웨어를 이용하여 구현될 수 있다. 본 기술분야의 숙련된 자는, 자율적 이미지 주석기 모듈(127) 및/또는 컴퓨터(101)가 본 발명의 기능들을 가능하게 하는 추가의 컴포넌트들 및 모듈들을 포함할 수 있음을 이해할 것이다.

개요 및 요약 부분이 아니라 상세한 설명 부분이 청구항들을 해석하는 데에 이용되도록 의도됨을 알아야 한다. 개요 및 요약 부분은 본 발명자(들)에 의해 예상되는 본 발명의 모든 예시적인 실시예가 아니라 하나 이상의 예시적인 실시예를 제시할 수 있으며, 따라서 본 발명 및 첨부된 청구항들을 어떤 식으로든 제한하도록 의도되지 않는다.

본 발명은 지정된 기능들의 구현 및 그들의 관계들을 나타내는 기능 구성 블록들의 도움을 받아서 위에서 설명되었다. 이러한 기능 구성 블록들의 경계는 설명의 편의를 위해 여기에서 임의로 정의되었다. 지정된 기능들 및 그들의 관계들이 적절하게 수행될 수 있다면, 다른 경계들이 정의될 수 있다.

특정한 실시예들에 대한 상기 설명은, 다른 사람들이 본 기술분야의 기술 내에서의 지식을 적용함으로써, 본 발명의 일반적인 개념으로부터 벗어나지 않고서, 과도한 실험 없이도 다양한 응용들을 위해 그러한 특정한 실시예들을 쉽게 수정 및/또는 적응시킬 수 있도록, 본 발명의 일반적인 특징을 완전히 드러낼 것이다. 그러므로, 그러한 적응 및 수정은 여기에 제시된 교시 및 안내에 기초하여, 개시된 실시예들의 균등물의 의미 및 범위 내에 있는 것으로 의도된다. 여기에서의 어법(phraseology) 또는 전문용어(terminology)는, 본 명세서의 어법 또는 전문용어가 교시 및 안내를 고려하여 숙련된 기술자에 의해 해석되도록, 제한이 아니라 예사의 목적을 위한 것임을 이해해야 한다.

본 발명의 폭 및 범위는 위에서 설명된 예시적인 실시예들 중 어떠한 것에 의해서도 제한되어서는 안 되며, 이하의 청구항들 및 그들의 균등물에 따라서만 정의되어야 한다.

Claims

디지털 이미지들 내에서 랜드마크들을 검출하고 주석을 달기 위한 방법으로서,
(a) 복수의 텍스트 연관된 디지털 이미지(text-associated digital images) 내의 하나 이상의 이미지에 랜드마크를 설명하는 태그를 자동으로 할당하여 랜드마크 태그된 이미지들(landmark-tagged images)의 집합을 생성하는 단계 - 상기 랜드마크 태그된 이미지들의 집합 내의 이미지들은, 상기 복수의 디지털 이미지의 디지털 이미지들과 연관된 텍스트를 분석하여 랜드마크 n 그램들(landmark n-grams)의 목록을 생성함으로써 알고리즘적으로(algorithmically) 상기 랜드마크를 포함하는 것으로 결정됨 -;
(b) 상기 랜드마크 태그된 이미지들의 집합으로부터 상기 랜드마크에 대한 어피어런스 모델(appearance model)을 학습하는 단계; 및
(c) 상기 어피어런스 모델을 이용하여, 새로운 이미지 내에서 상기 랜드마크를 검출하는 단계
를 포함하고,
단계 (a)-(c)는 적어도 하나의 프로세서에 의해 수행되는 방법.
제1항에 있어서,
(d) 상기 새로운 이미지에 상기 랜드마크를 설명하는 태그로 주석을 다는 단계를 더 포함하는 방법.
제1항에 있어서,
상기 단계 (a)는,
(i) n 그램 집합 내의 각각의 랜드마크 n 그램에 대한 n 그램 스코어를 계산하는 단계 - 상기 n 그램 집합은 상기 랜드마크 n 그램들의 목록의 부분집합임 -; 및
(ⅱ) 이미지에 대하여 상기 랜드마크를 설명하는 태그를 할당하는 단계 - 상기 랜드마크를 설명하는 태그는 상기 n 그램 집합 내의 적어도 하나의 랜드마크 n 그램에 기초함 - 를 포함하는 방법.
제1항에 있어서,
상기 단계 (a)는,
상기 복수의 텍스트 연관된 디지털 이미지에 전자적으로 액세스하는 단계; 및
상기 복수의 텍스트 연관된 디지털 이미지 내의 이미지와 연관된 텍스트로부터 상기 랜드마크 n 그램들 중 적어도 하나를 검색(retrieving)하는 단계를 포함하는 방법.
제4항에 있어서,
상기 단계 (a)는,
적어도 최소 신뢰도 척도(minimum reliability measure)를 갖는 상기 랜드마크 n 그램들을 선택하는 단계를 더 포함하는 방법.
제5항에 있어서,
상기 신뢰도 척도는 고유한 작성자들(unique authors)의 수에 기초하는 방법.
제3항에 있어서,
상기 단계 (a)(i)는,
상기 복수의 텍스트 연관된 디지털 이미지에 상관관계 가중치들(correlation-weights)을 할당하는 단계 - 상기 상관관계 가중치들은 상기 복수의 텍스트 연관된 디지털 이미지 내의 이미지들의 메타데이터의 상관관계에 기초함 -;
상기 복수의 텍스트 연관된 디지털 이미지로부터 일치 이미지 그래프(matching-images graph)를 생성하는 단계; 및
상기 복수의 텍스트 연관된 디지털 이미지 내의 이미지들에 상기 랜드마크 n 그램들을 링크하여, 상기 복수의 텍스트 연관된 디지털 이미지 내의 이미지들과 랜드마크 n 그램들 간의 링크들을 생성하는 단계를 포함하는 방법.
제7항에 있어서,
상기 단계 (a)(i)는,
상기 일치 이미지 그래프를 이용하여, 상기 복수의 텍스트 연관된 디지털 이미지의 각각의 이미지에 대해 지리적 신뢰도 스코어(geo-reliability score)를 추정하는 단계를 더 포함하는 방법.
제7항에 있어서,
상기 n 그램 스코어는 상기 일치 이미지 그래프에 기초하는 방법.
제9항에 있어서,
상기 n 그램 스코어는 상기 일치 이미지 그래프의 내부 에지들의 강도와 상기 일치 이미지 그래프의 외부 에지들의 강도의 비율로서 계산되고, 내부 에지는 적어도 하나의 공통 랜드마크 n 그램을 갖는 이미지들 간에 존재하고, 외부 에지는 적어도 하나의 공통 랜드마크 n 그램을 갖지 않는 이미지들 간에 존재하는 방법.
제8항에 있어서,
상기 단계 (a)(i)는,
상기 n 그램 집합의 랜드마크 n 그램에 대한 지리적 위치(geo-location)의 분산(variance)을 계산하는 단계 - 상기 분산은 상기 일치 이미지 그래프 내의 그들의 n 그램 집합 내에 상기 랜드마크 n 그램을 갖는 이미지들의 지리적 위치들에 기초함 -; 및
미리 정해진 임계값을 초과하는 지리적 위치의 분산을 갖는 임의의 랜드마크 n 그램들을 상기 n 그램 집합으로부터 제거하는 단계를 더 포함하는 방법.
제7항에 있어서,
상기 단계 (a)는,
상기 n 그램 집합 내의 둘 이상의 랜드마크 n 그램들을 병합하는 단계를 더 포함하는 방법.
제12항에 있어서,
상기 병합은,
상기 둘 이상의 랜드마크 n 그램들의 스코어의 유사성(similarity), 및
링크된 랜드마크 n 그램들 내에 상기 둘 이상의 랜드마크 n 그램들을 갖는 이미지들의 오버랩
중 하나에 적어도 기초하는 방법.
제7항에 있어서,
상기 메타데이터는,
작성자,
지리적 위치, 및
시간 원점(time of origin) 중 적어도 하나에 관련된 정보를 포함하는
방법.
제7항에 있어서,
상기 일치 이미지 그래프 내의 각각의 링크는 상기 복수의 텍스트 연관된 디지털 이미지 중의 2개의 이미지들 간의 일치 특징 설명자들(matching feature descriptors)을 표현하는 방법.
디지털 이미지들 내에서 자동으로 랜드마크들을 검출하고 주석을 달기 위한 시스템으로서,
메모리 매체 내에 저장된 텍스트 연관된 디지털 이미지들의 적어도 하나의 컬렉션; 및
상기 매체에 통신 연결된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
복수의 텍스트 연관된 디지털 이미지 내의 하나 이상의 이미지에 랜드마크를 설명하는 태그를 자동으로 할당하여, 랜드마크 태그된 이미지들의 집합을 생성하고 - 상기 랜드마크 태그된 이미지들의 집합 내의 이미지들은, 상기 복수의 디지털 이미지의 디지털 이미지들과 연관된 텍스트의 분석으로 랜드마크 n 그램들(landmark n-grams)의 목록을 생성함으로써 알고리즘적으로 상기 랜드마크를 포함하는 것으로 결정됨 -;
상기 랜드마크 태그된 이미지들의 집합으로부터 상기 랜드마크에 대한 어피어런스 모델을 학습하고,
상기 어피어런스 모델을 이용하여, 새로운 이미지 내에서 상기 랜드마크를 검출하도록 구성되는 시스템.
제16항에 있어서,
상기 적어도 하나의 프로세서는 또한 상기 새로운 이미지에 상기 랜드마크를 설명하는 태그로 주석을 달도록 구성되는 시스템.
제16항에 있어서,
상기 적어도 하나의 프로세서는 또한,
n 그램 집합 내의 각각의 랜드마크 n 그램에 대한 n 그램 스코어를 계산하고 - 상기 n 그램 집합은 상기 랜드마크 n 그램들의 목록의 부분집합임 -,
이미지에 대하여 상기 랜드마크를 설명하는 태그를 할당하도록 - 상기 랜드마크를 설명하는 태그는 상기 n 그램 집합 내의 적어도 하나의 랜드마크 n 그램에 기초함 - 구성되는 시스템.
제18항에 있어서,
상기 적어도 하나의 프로세서는 또한,
상기 복수의 텍스트 연관된 디지털 이미지에 상관관계 가중치들을 할당하고 - 상기 상관관계 가중치들은 상기 복수의 텍스트 연관된 디지털 이미지 내의 이미지들의 메타데이터의 상관관계에 기초함 -,
상기 복수의 텍스트 연관된 디지털 이미지로부터 일치 이미지 그래프를 생성하고,
상기 복수의 텍스트 연관된 디지털 이미지 내의 이미지들에 상기 랜드마크 n 그램들을 링크하여, 상기 복수의 텍스트 연관된 디지털 이미지 내의 이미지들과 랜드마크 n 그램들 간의 링크들을 생성하도록 구성되는 시스템.
프로세서가 이미지들의 명칭을 정하는 것을 가능하게 하는 컴퓨터 프로그램 로직이 기록되어 있는 컴퓨터 판독가능 매체로서,
상기 컴퓨터 프로그램 로직은,
상기 프로세서가 복수의 텍스트 연관된 디지털 이미지 내의 하나 이상의 이미지에 랜드마크를 설명하는 태그를 할당하여, 랜드마크 태그된 이미지들의 집합을 생성하는 것을 가능하게 하도록 구성된 제1 모듈 - 상기 랜드마크 태그된 이미지들의 집합 내의 이미지들은, 상기 복수의 디지털 이미지의 디지털 이미지들과 연관된 텍스트를 분석하여 랜드마크 n 그램들(landmark n-grams)의 목록을 생성함으로써 알고리즘적으로 상기 랜드마크를 포함하는 것으로 결정됨 -;
상기 프로세서가 상기 랜드마크 태그된 이미지들의 집합으로부터 상기 랜드마크에 대한 어피어런스 모델을 학습하는 것을 가능하게 하도록 구성된 제2 모듈; 및
상기 프로세서가 상기 어피어런스 모델을 이용하여, 새로운 이미지 내에서 상기 랜드마크를 검출하는 것을 가능하게 하도록 구성된 제3 모듈을 포함하는 컴퓨터 판독가능 매체.
제20항에 있어서,
상기 프로세서가 상기 새로운 이미지에 상기 랜드마크를 설명하는 태그로 주석을 다는 것을 가능하게 하도록 구성된 제4 모듈을 더 포함하는 컴퓨터 판독가능 매체.
제20항에 있어서,
상기 제1 모듈은 또한,
n 그램 집합 내의 각각의 랜드마크 n 그램에 대한 n 그램 스코어를 계산하고 - 상기 n 그램 집합은 상기 랜드마크 n 그램들의 목록의 부분집합임 -,
이미지에 대하여 상기 랜드마크를 설명하는 태그를 할당하도록 - 상기 랜드마크를 설명하는 태그는 상기 n 그램 집합 내의 적어도 하나의 랜드마크 n 그램에 기초함 - 구성되는 컴퓨터 판독가능 매체.
제22항에 있어서,
상기 제1 모듈은 또한,
상기 복수의 텍스트 연관된 디지털 이미지에 상관관계 가중치들을 할당하고 - 상기 상관관계 가중치들은 상기 복수의 텍스트 연관된 디지털 이미지 내의 이미지들의 메타데이터의 상관관계에 기초함 -,
상기 복수의 텍스트 연관된 디지털 이미지로부터 일치 이미지 그래프를 생성하고,
상기 복수의 텍스트 연관된 디지털 이미지 내의 이미지들에 상기 랜드마크 n 그램들을 링크하여, 상기 복수의 텍스트 연관된 디지털 이미지 내의 이미지들과 랜드마크 n 그램들 간의 링크들을 생성하도록 구성되는 컴퓨터 판독가능 매체.