KR20140091554A

KR20140091554A - 이미지 컨텐트 기반 자동 태그 생성 기법

Info

Publication number: KR20140091554A
Application number: KR1020147013107A
Authority: KR
Inventors: 호세 엠마누엘 미란다-스타이너
Original assignee: 마이크로소프트 코포레이션
Priority date: 2011-11-17
Filing date: 2012-11-16
Publication date: 2014-07-21
Also published as: EP2780863A4; AU2012340354A1; CA2855836A1; CN103930901A; WO2013074895A3; EP2780863A2; BR112014011739A8; WO2013074895A2; US20130129142A1; IN2014CN03322A; RU2014119859A; RU2608261C2; JP2015501982A; BR112014011739A2; MX2014006000A

Abstract

식별가능한 오브젝트들의 이미지를 가지는 사진(또는 비디오)로부터 데이터를 자동 추출 및 태깅이 제공된다. 이미지 인식 및 추출된 메타데이터 - 지리적 및 날짜/시간 정보를 포함 - 의 조합은 사진 또는 비디오 내에서 오브젝트들을 발견하고 인식하기 위하여 사용된다. 인식된 오브젝트에 대해 매칭하는 식별자를 발견하면, 사진 또는 비디오는 상기 인식된 오브젝트들과 연관되고 대응하는 하나 이상의 키워드들로 자동 태깅된다.

Description

이미지 컨텐트 기반 자동 태그 생성 기법{AUTOMATIC TAG GENERATION BASED ON IMAGE CONTENT}

디지털 카메라가 점점 널리 사용되고 있고 디지털 저장장치가 점점 더 저렴해짐에 따라, 사용자의 콜렉션(또는 라이브러리)에 포함된 사진과 비디오의 숫자도 또한 기하급수적으로 증가하는 경향이 있다.

이들 사진들을 분류하는 것은 많은 시간이 필요하며, 사용자가 각자의 인생의 특정 순간의 이미지를 신속하게 발견하는 일은 어려운 일이다. 현재, 디지털 사진의 정렬, 저장, 및 검색을 돕기 위해 태그(tag)가 사용된다. 태깅(tagging)은 디지털 데이터에 키워드를 할당하는 프로세스를 지칭한다. 그러면, 디지털 데이터는 키워드 또는 '태그'에 따라 조직화될 수 있다. 예컨대, 디지털 사진의 주제(subject matter)는 하나 이상의 태그로서 해당 디지털 사진와 연관되는 키워드를 생성하기 위해 사용될 수 있다.

비록 사진들의 분류와 검색을 돕기 위해 특정 디지털 사진에 수동으로 태그가 추가될 수 있지만, 현재 사진에 추가되는 소수의 자동 태그만이 존재한다. 예를 들어, 대부분의 카메라는 디지털 사진에 날짜 및 시간의 자동 태그를 할당한다. 덧붙여서, 더욱 더 많은 카메라들은 사진의 자동 태그의 일부로서 지리적인 위치를 포함하고 있다. 최근에, 소프트웨어 솔루션들은 사진 내에 있는 사람들의 자동 식별 (및 특정 인물에 대한 매칭)을 제공하도록 개발되고 있다.

그렇지만, 현재 사용자는 날짜, 지리적 위치, 사람 태그, 및 수동으로 추가된 태그에 의해 사진들을 조회(query)하는 것으로 제한되고 있다.

디지털 사진 및 비디오에 자동으로 태그를 할당하는 방법이 제공된다. 카메라에 의해 자동으로 사진에 할당될 수 있는 날짜, 시간, 지리적 위치를 제공하는 메타데이터로부터의 태그만을 가지는 것이 아니라, 사진나 비디오로부터 추가 정보가 자동으로 추출될 수 있고 그 추가 정보와 연관된 키워드나 코드가 그 사진나 비디오에 태그로서 자동으로 할당될 수 있다. 이 추가 정보는 이미지와 연관된 메타데이터 및 이미지로부터 직접적으로 당연히 이용가능하지 않은 정보를 포함할 수 있다.

이미지로부터, 예를 들어, 날씨, 지리적인 랜드마크, 건축적인 랜드마크, 및 현저한 주변 특징을 포함하는, 하지만 이에만 제한되지는 않는, 특정 조건들에 관한 정보가 추출될 수 있다. 일 실시예에서, 사진의 시간 및 지리적 위치 메타데이터는 그 구체적인 위치 및 시간에 대한 날씨를 추출하기 위해 사용된다. 추출은 사진이 찍힌 구체적인 위치와 시간에 대한 날씨를 결정하기 위해 날씨 데이터베이스를 조회함으로써 실행될 수 있다. 다른 실시예에서, 지리적 및 건축적 랜드마크를 추출하기 위해 사진의 지리적 위치 메타데이터 및 이미지 인식이 이용될 수 있다. 또 다른 실시예에서, 이미지 인식은 이미지로부터 현저한 주변 특징(배경, 컬러, 색조, 및 휘도를 포함하여) 및 알려진 물리적인 오브젝트를 추출하기 위해 이용되고, 추출된 특징 및 오브젝트에 기초하여 태그가 자동으로 사진에 할당된다.

일 실시예에 따르면, 사진 내에서 하나 이상의 특정 조건이 인식될 때 태그로서 사용될 키워드 또는 오브젝트 식별자의 데이터베이스가 제공될 수 있다. 하나의 특정 조건이 인식되면, 그 특정 조건과 연관된 키워드들이나 오브젝트 식별자들이 사진을 위한 태그들로서 자동으로 할당된다.

하나의 특정 사진에 이전에 연관된 태그들이 추가적인 태그들을 생성하기 위해 사용될 수 있다. 예를 들어, 날짜 정보는 계절, 학기, 공휴일, 및 뉴스거리가 되는 이벤트와 같은 그 날짜와 연관된 키워드들을 가진 태그들을 생성하기 위해 사용될 수 있다.

다른 실시예에서, 인식된 오브젝트들은 현저성(prominence)에 따라 순위가 매겨질 수 있고 순위는 추가적인 태그로서 반영될 수 있다. 덧붙여서, 인식된 오브젝트들을 식별하는데 사용된 데이터베이스는 특수성(specificity)/그래뉼러리티(granularity)의 다양한 수준들을 포함할 수 있다.

이 요약(Summary)은 아래의 발명을 실시하기 위한 구체적인 내용(Detailed Description)에 더 기술되는 개념들을 선별하여 단순화된 형태로 소개하기 위해 제공된다. 이 요약은 청구 대상의 주요 특징이나 핵심 사항을 밝히기 위한 것이 아니며, 또한 청구 대상의 범위를 제한하기 위한 것도 아니다.

도 1은 본 발명의 특정 실시예들에 따른 자동 태그 생성 프로세스를 도시한다.
도 2는 본 발명의 특정 실시예들에 따른 이미지 인식 프로세스를 도시한다.
도 3은 본 발명의 특정 실시예들에 따른 자동 태그 생성 프로세스 흐름을 보여준다.
도 4는 본 발명의 일 실시예에 따른 자동 태그 생성 프로세스를 위해 사진로부터 건축적 랜드마크를 추출함으로써 태그를 생성하는 프로세스를 도시한다.
도 5는 본 발명의 일 실시예에 따른 자동 태그 생성 프로세스를 위해 사진로부터 지리적 랜드마크를 추출함으로써 태그를 생성하는 프로세스를 도시한다.

하나의 사진와 연관된 하나 이상의 태그들의 자동 생성을 수행하는 기법들이 기술된다. 자동 태깅은 로컬, 원격, 또는 분산 데이터베이스 상에 저장될 수 있는 사진 컬렉션으로 임의의 디지털 사진(또는 비디오)가 로딩되거나 또는 전송될 때 발생할 수 있다. 그 외 다른 실시예들에서, 자동 태깅은 기존 사진들에 태깅하기 위하여 사용자의 개시에 의해 발생할 수 있다.

하나의 이미지는 하나의 사진 또는 하나의 비디오 프레임 내에 나타나는 것의 오브젝트들, 형상들, 및 특징들의 시각적 표현을 포함할 수 있지만, 이에만 제한되는 것은 아니다. 특정 실시예들에 따라, 이미지는 디지털 카메라에 의해 (하나의 사진의 형태로 또는 하나의 비디오의 일부로서) 캡쳐될 수 있고, 그 디지털 카메라의 이미지 센서들에 의해 정의되는 픽셀들의 형태로 실현될 수 있다. 몇몇 실시예들에서, 용어 "사진 이미지"는 여기서 사진와 연관된 메타데이터 또는 그 외 다른 요소들에 대한 반대로서 디지털 사진의 이미지를 지칭하기 위해 사용되며 본 발명의 특정 실시예들의 범위에서 벗어나지 않으면서 용어 "이미지"와 상호교환가능하게 사용될 수 있다. 용어들 "사진", "이미지", 및 "사진 이미지"의 의미는 각자의 컨텍스트로부터 쉽게 이해될 것이다.

특정 실시예들에서, 이미지는, 여기서 사용되는 바와 같이, 디지털 카메라의 이미지 센서들에 의해 획득된 전기적 값들의 시각적 표현을 지칭할 수 있다. 이미지 파일(및 디지털 사진 파일)은 컴퓨터-판독가능하고 스토리지 장치 내에 저장가능한 이미지의 형태를 지칭할 수 있다. 특정 실시예들에서, 이미지 파일은 .jpg, .gif, 및 .bmp를 포함할 수 있지만, 이에만 제한되는 것은 아니다. 이미지 파일은 예를 들어 디스플레이 장치 상에서 또는 기재(예컨대, 종이에 프린트함으로써) 상에서 시각적 표현("이미지")을 제공하도록 재구성될 수 있다.

비록 몇몇 예시적인 실시예들은 사진을 참조하여 기술될 수 있지만, 이들은 임의의 이미지(카메라에 의해 캡쳐되지 아니한 것들)에 적용가능하다는 것이 이해되어야 한다. 또한 이들 기법들은 스틸 이미지(예컨대, 사진) 및 움직이는 이미지들(예컨대, 비디오) 둘 모두에 적용가능하고, 해당 파일에 오디오 컴포넌트들이 포함될 수 있다.

디지털 사진 파일 내에 쓰여진 메타데이터는 종종 그 사진의 (저작권 및 연락처를 포함하여) 소유자 및 그 파일을 생성한 카메라(및 설정)를 식별하는 정보, 뿐만 아니라 사용자의 컴퓨터에서 및/또는 인터넷을 통해 그 파일을 검색가능하게 하는 사진에 관련된 키워드들과 같은 설명 정보를 포함한다. 몇몇 메타데이터는 카메라에 의해 기록되는 반면에 그 외 다른 메타데이터는 디지털 사진 파일을 컴퓨터(또는 서버)로 카메라, 메모리 장치, 또는 다른 컴퓨터로부터 전송한 이후 수동으로 사용자에 의해 입력되거나 소프트웨어에 의해 자동으로 입력된다.

본 발명의 특정 실시예들에 따르면, 이미지 및 그것의 메타데이터는 추가적인 메타데이터를 생성하기 위해 사용된다. 추가적인 메타데이터는 이미지 및 이미지에 대한 메타데이터로부터 추출되거나 추론됨으로써 생성된다. 이미지에 대한 메타데이터는 이미지가 찍힌 지리적-위치(geo-location)와 날짜, 및 이미지와 연관된 이용가능한 임의의 정보를 포함할 수 있다. 이미지에 대한 메타데이터는 이미지 자체의 일부일 수 있거나 또는 별도로 제공될 수 있다. 메타데이터가 이미지 자체의 일부인 경우, 데이터는 먼저 이미지의 디지털 파일로부터 추출되고 그 다음에 추가적인 메타데이터를 생성하도록 사용된다. 일단 생성되면, 추가적인 메타데이터는 이제 원래 이미지에 다시 연관될 수 있거나 또는 그 외 다른 목적을 위해 사용될 수 있다. 추출된 및/또는 생성된 메타데이터 및 추가적인 메타데이터는 태그로서 원래 이미지와 연관될 수 있다.

태그 타입 중 하나는 키워드 태그이다. 키워드 태그는 하나 이상의 이미지들에 대한 동작, 예컨대, 특정 기준과 매칭하는 키워드를 가지는 태그에 기초한 이미지 파일의 정렬, 검색 및/또는 회수를 수행하는 것과 관련하여 사용될 수 있다.

도 1은 본 발명의 특정 실시예들에 따른 자동 태그 생성 프로세스를 도시한다.

도 1을 참조하면, 이미지 및 대응하는 메타데이터를 가지는 사진이 수신된다(100). 본 발명의 일 실시예의 자동 태깅 프로세스는 사진을 수신하면 자동으로 시작될 수 있다. 일 예를 들면, 프로세스는 사용자가 사진 이미지 파일을 사진 공유 사이트로 업로드하면 시작될 수 있다. 다른 예를 들면, 프로세스는 사용자가 카메라에서 사용자의 컴퓨터로 로딩하면 시작될 수 있다. 또 다른 예를 들면, 사용자의 모바일 폰은, 모바일 폰의 카메라를 사용하여 이미지를 캡쳐링하거나 애플리케이션을 선택하면 태깅 프로세스가 시작될 수 있는, 자동 태그 생성을 위한 애플리케이션을 포함할 수 있다.

사진을 수신한 후, 사진와 연관된 메타데이터가 추출된다(110). 메타데이터의 추출은 사진와 연관된 특정 타입(들)의 메타데이터의 판독 및 파싱(parsing)을 포함할 수 있다. 추출될 수 있는 메타데이터의 타입들은 EXIF(Exchangeable Image File Format), IPTC(International Press Telecommunication Council), 및 XMP(Extensible Metadata Platform)를 포함할 수 있지만, 이에만 제한되는 것은 아니다.

메타데이터 추출(110)에 추가하여, 사진 이미지에서 형상들 및 오브젝트들을 인식하고 식별하기 위해 이미지 인식이 수행된다(120). 이미지 인식 수행 동안에 사용되는 특정 이미지 인식 알고리즘은 특정 애플리케이션 또는 프로세싱 조건들에 대해 이용가능한 임의의 적절한 이미지 또는 패턴 인식 알고리즘일 수 있다. 이미지 인식 알고리즘은 알려진 오브젝트들에 대한 사진 내 오브젝트들의 매칭을 제공하기 위해 이용가능한 데이터베이스들에 의해 제한될 수 있다. 일 예로서, 이미지 인식 알고리즘은 이미지의 전-처리를 포함할 수 있다. 전-처리는 이미지의 콘트라스트 조정, 그레이스케일 및/또는 흑백 전환, 자르기, 크기 조정, 회전, 및 이들의 조합을 포함하지만, 이들만으로 제한되지 않는다.

특정 이미지 인식 알고리즘들에 따라, 특정 오브젝트를 검출하는데 사용하기 위해 컬러, 크기, 또는 형상과 같은 (그러나 이들로만 제한되는 것은 아닌) 구별되는 특징이 선택될 수 있다. 물론, 오브젝트의 구별되는 특성들을 제공하는 다수의 특징들이 사용될 수 있다. 이미지 내의 오브젝트들의 에지(또는 경계)들을 결정하기 위해 에지 검출 (또는 경계 인식)이 수행될 수 있다. 원하지 않는 부분들을 제거하는 것을 포함하여, 픽셀들의 집합에 대해 액션들을 실행하기 위해, 이미지 인식 알고리즘 내에서 몰폴로지(morphology)가 수행될 수 있다. 덧붙여서, 노이즈 감소 및/또는 영역 채우기가 수행될 수 있다.

이미지 인식 알고리즘의 일 실시예의 일부로서, 일단 하나 이상의 오브젝트(및 그것들과 연관된 성질들)가 이미지 안에서 발견/검출되면, 하나 이상의 오브젝트는 각각 이미지 안에서 위치지정될 수 있고 이후 분류될 수 있다. 위치지정된 오브젝트(들)는 구별되는 특징(들)과 관련된 특정 규격(specification)들에 따라 위치지정된 오브젝트(들)를 평가함으로써 분류(즉, 특정 형태 또는 오브젝트로 식별)될 수 있다. 특정 규격은 수학적 계산(또는 관계)을 포함할 수 있다. 다른 예로서, 이미지 내에서 인식가능한 오브젝트들을 위치지정하는 것 대신에(또는 추가하여), 패턴 매칭이 수행될 수 있다. 매칭은 이미지 내 요소들 및/또는 오브젝트들을 "알려진" (이전에 식별된 또는 분류된) 오브젝트들 및 요소들과 비교함으로써 실행될 수 있다. 계산 및/또는 비교의 결과(예컨대, 값)는 분류를 위해 가장 잘 맞는 것을 나타내도록 정규화될 수 있는데, 이 경우, 더 높은 숫자(예컨대, 0.9)는 더 낮은 숫자(예컨대, 0.2)의 정규화된 결과보다 특정 형태 또는 오브젝트로서 정확하게 분류될 가능성이 더 높다는 것을 표시한다. 식별된 오브젝트에 라벨을 할당하기 위해 문턱값이 사용될 수 있다. 다양한 실시예들에 따라, 이미지 인식 알고리즘들은 신경망(NN, neural network) 및 그 외 다른 학습 알고리즘을 활용할 수 있다.

비록 구체적으로 기술된 실시예들과 예시들이 사진을 참조하고 있지만, 이것은 기술된 실시예들과 예시들을 사진로 제한하는 것으로 해석되어서는 안된다는 점이 이해되어야 한다. 예를 들면, 비디오 신호는 여기서 기술된 특정 시스템들에 의해 수신될 수 있고, 본 발명의 특정 실시예들에 따라 기술된 바와 같은 자동 태그 생성 프로세스에 의해 처리될 수 있다. 일 실시예에서, 비디오 신호의 하나 이상의 비디오 프레임이 수신될 수 있고, 여기서 비디오 프레임은 이미지 및 메타데이터를 포함할 수 있으며, 이미지 인식 및 메타데이터 추출이 수행될 수 있다.

일 실시예에서, 이미지 안에 기본 형태 또는 오브젝트가 존재한다는 것을 식별하기 위하여 이미지에 대해 첫번째 패스 인식(pass recognition) 단계가 수행될 수 있다. 일단 기본 형태 또는 오브젝트가 식별되면, 형태 또는 오브젝트에 대한 더 특정한 식별정보를 획득하기 위해 두번째 패스 인식 단계가 수행된다. 예를 들어, 첫번째 패스 인식 단계는 사진 내에 건축물이 존재한다는 것을 식별할 수 있고, 두번째 패스 인식 단계는 특정 건축물을 식별할 수 있다. 일 실시예에서, 사진 내에 건축물이 존재한다는 것을 식별하는 단계는 이미지 인식을 수행하는 머신/디바이스가 이용가능한 이미지 또는 패턴 집합과 사진 사이의 패턴 매칭에 의해 달성될 수 있다. 특정 실시예들에서, 첫번째 패스 인식 단계 동안의 패턴 매칭의 결과가 추가 인식 단계가 수행되지 않도록 충분한 특이성을 갖는 형태 또는 오브젝트를 식별하기에 충분할 수 있다.

특정 실시예들에서, 이미지 인식 프로세스 동안에, 추출된 메타데이터는 예컨대, 사진 내의 형태 또는 오브젝트가 무엇인지에 관하여 힌트를 제공함으로써, 이미지 인식을 용이하게 하기 위하여 사용될 수 있다. 첫번째 패스/두번째 패스 프로세스에 대한 건축물 예에서, 메타데이터로부터 추출된 지리적인 정보가 특정 건축물의 식별을 용이하게 하기 위하여 사용될 수 있다. 일 실시예에서, 이미지 인식(120)의 수행은 도 2에 도시된 이미지 인식 프로세스를 사용하여 실행될 수 있다. 도 2를 참조하면, 이미지 내에서 오브젝트를 식별하기 위하여 기본 이미지 인식 알고리즘이 사용될 수 있다(221). 이 이미지 인식 알고리즘은 단계(221)의 이미지 인식 프로세스가 추출된 메타데이터를 사용하지 않는다는 점을 나타내기 위해 "기본"이라고도 지칭되며 단순한 또는 제한된 프로세스 만을 나타내는 것으로 해석되어서는 안된다. 이미지 인식 알고리즘은 특정 애플리케이션 또는 프로세싱 조건들에 대해 이용가능한 임의의 적절한 이미지 또는 패턴 인식 알고리즘일 수 있으며, 또한 이미지의 전-처리를 포함할 수 있다. 일단 이미지로부터 하나의 오브젝트가 식별되면, 추출된 메타데이터(211)는 데이터베이스(예컨대, "식별 DB")를 조회함으로써 식별된 오브젝트를 위한 명칭 또는 라벨을 획득하기 위하여 사용될 수 있다(222). 데이터베이스는 조회에 의해 설정된 조건들 내에서 오브젝트의 식별정보를 제공하는 명칭들 및/또는 라벨들을 포함하는 임의의 적절한 데이터베이스일 수 있다. 그런 다음 식별 DB 조회의 결과에 따른 명칭 및/또는 라벨은, 명칭 및/또는 라벨과 연관된 이미지를 발견하기 위하여 이미지를 포함하는 데이터베이스(예컨대, "화상 DB")를 조회하기 위해 사용될 수 있다(223). 그런 다음 화상 DB 검색 결과에 따른 이미지가 이미지 내의 오브젝트를 더 구체적으로 식별하기 위하여 패턴 매칭(224)을 수행하기 위해 사용될 수 있다. 특정 실시예들에서, 화상 DB 검색의 결과에 따른 오브젝트들의 이미지들이 이미지 인식 프로세스에 의해 처리 중인 이미지 내에서 식별된 오브젝트와 얼마나 유사한지를 나타내는 점수가 제공될 수 있다.

위의 건축물 예시와 도 2를 참조하여 기술된 이미지 인식 프로세스의 실시예에 따른 이미지 인식 프로세스를 사용하는 경우, 오브젝트 "건축물"을 식별하기 위해 기본 이미지 인식(221)이 사용될 수 있고, 알고리즘은 예를 들어 "건축물", "회색 건축물", 또는 "높은 건축물"을 리턴할 수 있다. 추출된 메타데이터(211)가 사진이 찍힌 위도 및 경도( ~ 10² 피트 정도의 범위 내일 수 있는)일 때, 식별 DB의 조회(222)는 "이 지리적인 위치와 가까운 모든 건축물들을 찾아라"(여기서 지리적인 위치는 추출된 메타데이터에 의해 제공된 위도 및 경도를 사용하여 식별된다)일 수 있다. 그런 다음, "이들 특정 건축물들 각각에 대해 모든 알려진 화상(picture)들을 발견"하기 위해 화상 DB가 조회(223)될 수 있다(여기서 특정 건축물들은 식별 DB의 조회에서 식별된 건축물들이다). 그런 다음 구체적으로 자명한 또는 유사한 매치가 존재하는지 아닌지를 결정하기 위해 화상 DB의 조회에 의해 획득된 이미지들을 이미지 인식 프로세스에 의해 처리되고 있는 이미지와 비교하기 위해 패턴 매칭(224)이 수행될 수 있다.

다른 실시예에서, 단일 이미지 내에서 다수의 오브젝트들이 식별될 때, 오브젝트들의 상대적인 위치도 또한 인식될 수 있다. 예를 들어, 식별된 배가 식별된 강에 있다는 것 또는 식별된 사람이 식별된 수영장에 있다는 것을 인식하기 위해 진보된 인식 단계가 수행될 수 있다.

도 1로 돌아가면, 그런 다음 추출된 메타데이터 및 사진에서 인식된/식별된 오브젝트들은 관련된 정보에 대해 데이터베이스에 조회하는데 사용됨으로써 사진에 대한 추가 정보를 획득하기 위해 사용될 수 있다. 조회로부터 결과를 획득하기 위해 워드 매칭(word matching)이 수행될 수 있다. 이 단계는 사진 내 오브젝트들 및 사진 내부 또는 근처에서 발생하는 이벤트들에 관한 관련 정보를 획득하기 위해 다양한 데이터베이스들에 조회하기 위해 지리적인 정보, 날짜/시간 정보, 이미지 내의 식별된 오브젝트들, 또는 이들의 다양한 조합들을 사용하는 것을 포함할 수 있다. 데이터베이스 조회의 결과들은 수신(140)될 수 있고 사진에 대한 태그로서 사용(150)될 수 있다. 예를 들어, 2011년 11월 24일이라는 추출된 날짜, 미국이라는 추출된 위치, 및 테이블 위에 있는 거위 요리라는 인식된 오브젝트를 가진 사진은 "추수감사절" 이라는 추가 정보 태그를 결과로 획득할 수 있지만, 미국의 외부를 추출된 위치로 가지는 경우에는 동일 이미지에 대해 "추수감사절"이라는 추가 정보의 태그가 반드시 결과로 획득되지 않을 것이다. 다른 예를 들면, 2008년 미국 대통령 선거 날짜 및 대통령 오바마가 인식된 이미지가 추출된 사진은 "대통령 선거"라는 추가 정보 태그를 결과로 획득할 수 있거나, 또는 만약 시간도 역시 매칭한다면, 추가적인 정보 태그는 "수락 연설"을 포함할 수 있다.

도 3은 본 발명의 특정 실시예들에 따른 자동 태깅 프로세스를 도시한다. 도 1과 관련하여 기술된 프로세스와 유사하게, 이미지(301) 및 대응하는 메타데이터(302)를 가진 사진이 수신된다. 메타데이터(302)로부터 이용가능한 임의의 지리적 정보(310) 및 날짜/시간 정보(320)가 추출된다. 만약 이용가능한 아무런 지리적 정보와 날짜/시간 정보가 없다면, (종료 프로세스로서) 널(null) 결과가 리턴될 수 있다. 덧붙여서, 이미지(301)는 알려진 오브젝트들(즉, 이미지 분류기에 의해 사용되는 데이터베이스 내에서 정의되어 있는 및/또는 분류되어 있는 오브젝트들)에 대해 스캐닝하고 이미지 내에서 임의의 알려진 물리적인 오브젝트들을 식별하고 추출하는 이미지 분류기(330)로 입력된다.

이미지 분류기는 이미지로부터 가능한 한 많은 데이터를 추출하기 위하여 형태들 및 아이템들(오브젝트들)의 데이터베이스를 사용한다. 이미지 분류기는 다양한 오브젝트들, 형태들, 및/또는 특징들(예컨대, 컬러)을 검색하고 인식할 수 있다. 오브젝트에는 얼굴, 사람, 제품, 캐릭터, 동물, 식물, 디스플레이된 텍스트, 및 그 외 다른 구별가능한 이미지 내 컨텐트가 포함되지만, 이들만으로 제한되지 않는다. 데이터베이스는 인식가능한 형태 및 아이템(오브젝트)과 연관된 오브젝트 식별자(메타데이터)를 포함할 수 있다. 특정 실시예들에서, 이미지 분류기의 감도(sensitivity)는 심지어 오브젝트의 부분적인 형태나 일부만이 이미지 내에서 식별가능한 경우에도 오브젝트를 식별할 수 있다. 이미지 분류기 프로세스에서 획득된 메타데이터는 사진에 대한 태그로서 사용될 수 있다. 메타데이터는 사진 내에 다시 쓰여지거나 또는 사진와 연관되어 저장될 수 있다(335).

추출된 메타데이터 및 이미지 분류기 프로세스로부터 획득된 메타데이터로부터, 메타데이터의 조합을 활용함으로써 추가적인 태그들이 자동으로 생성될 수 있다. 예를 들어, 이미지는 다양한 인식된 특징들의 식별 및 추출을 위한 하나 이상의 패스들에 의해 처리될 수 있다. 다양한 인식된 특징들의 식별과 추출 동안에, 사진와 연관된 태그의 일부로서, 인식된 특징이 정확하게 인식된 확률을 나타내는 신뢰도 값(confidence value)이 제공될 수 있다. 신뢰도 값은 이미지 인식 알고리즘의 일부로서 생성될 수 있다. 특정 실시예들에서, 신뢰도 값은 이미지 내의 특징/오브젝트를 기본 특징(또는 특정 규격)에 매칭할 때 이미지 인식 알고리즘에 의해 생성된 매칭 가중치(정규화될 수 있는)이다. 예를 들어, 이미지에서 검색되고 있는 구별되는 특성이 전체 화상이 푸른색인 경우이지만, 상이한 톤의 푸른색을 가지는 이미지가 매칭 알고리즘에서 사용될 때, 생성된 신뢰도 값은 사용되고 있는 알고리즘과 이미지들 사이의 델타에 의존할 것이다. 일 예에서, 만약 알고리즘이 에지들과 컬러들을 인식한다면 결과는 90% 매치를 나타낼 수 있고, 다른 예에서, 만약 알고리즘이 오직 에지들만을 인식하고 컬러를 인식하지 않는다면 결과는 100% 매치를 나타낼 수 있다.

특정 실시예들에서, 신뢰도 값들은 신뢰도의 레벨을 포함하는 테이블의 형태로 존재할 수 있다. 테이블은 태그 자체의 일부로서 저장될 수 있다. 일 실시예에서, 테이블은 속성 및 확실성(certainty)을 포함할 수 있다. 예를 들어, 플랜턴(plantain)의 사진(플랜턴이 플랜턴인지 또는 바나나인지 명확하지 않은)이 주어지면, 이 사진은 (본 발명의 일 실시예에 따른 자동 태그 생성 프로세스에 의해 처리된 후) 아래의 표 1에 도시된 테이블로 태깅될 수 있다. 이 테이블은 오직 예시 목적으로 제공된다는 점이 이해되어야 하며 형태, 구조, 또는 속성 선택을 제한하는 것으로 해석되지 않아야 한다.

위의 예에 있어서, 사용자가 바나나 사진들을 검색하고 있을 때, 표 1의 테이블과 함께 플랜턴 사진이 획득될 수 있다. 사용자는, 몇몇 경우에, 테이블 내에서 사용자가 정확하지 않다고 알고 있는 임의의 속성들을 제거할 수 있고 또한 사용자가 정확하다고 알고 있는 속성의 신뢰도 값(또는 확실성)을 100%(또는 1)로 변경할 수 있다. 특정 실시예들에서, 이미지 인식 알고리즘이 더 정확하게 될 수 있도록 하기 위하여 정정된 테이블 및 사진이 이미지 인식 알고리즘 내에서 사용될 수 있다.

도 3으로 돌아가면, 일 실시예에서, 추출된 지리적 정보는 랜드마크 인식 패스(340)를 용이하게 하기 위하여 사용되는데, 여기서 이미지는 임의의 인식된 랜드마크들(지리적인 또는 건축적인)을 식별하고 추출하기 위하여 입력된다. 신뢰도 값은 또한 랜드마크 인식 패스에서 생성된 태그들과 연관될 수 있다. 랜드마크 인식 패스에서 생성된 태그들은 사진 이미지 파일 내로 다시 쓰여지거나 또는 이미지와 연관되어 저장될 수 있다(345).

다른 실시예에서, 지리적 정보 및 날짜/시간 정보로 된 추출된 메타데이터를 사용함으로써 이미지가 캡쳐된 시간/위치에서 날씨/온도 정보를 추정(extrapolate)하기 위해 날씨 데이터베이스가 액세스된다(350). 날씨/온도 정보는 사진 내로 다시 쓰여질 수 있고 또는 사진와 연관되어 저장될 수 있다(355). 각각의 프로세스에서 생성된 자동 태그들은 동일한 또는 분리된 스토리지 위치에 저장될 수 있다.

자동 태그 생성 시스템에 의해 다수의 데이터베이스들이 사용될 수 있다. 태그 생성 시스템에 의해 사용되는 데이터베이스들은 로컬 데이터베이스들 또는 그 외 다른 시스템들과 연관되어 있는 데이터베이스들일 수 있다. 일 실시예에서, 데이터베이스는 날씨, 지리적 랜드마크, 및 건축적 랜드마크와 같은 (하지만 이들로 제한되는 것은 아닌) 하나 이상의 특정 조건들이 사진 내에 존재하는 것으로 결정될 때 태그들로 사용되는 키워드들 또는 오브젝트 식별자들을 포함할 수 있다. 이 데이터베이스는 이미지 분류기에 의해 사용되거나 및/또는 액세스되는 데이터베이스의 일부거나 또는 별개로 분리된 데이터베이스일 수 있다. 이 자동 태그 생성 프로세스들의 특정 실시예들에서 액세스되고 사용되는 데이터베이스들은, 이미지들과 태그들 사이의 매칭을 가능하게 하는, 검색 엔진들이 이용가능한 임의의 적절한 데이터베이스들을 포함할 수 있다.

사진에 지리적 식별 정보를 (메타데이터로서) 추가하는 프로세스는 "지오태깅(geotagging)"이라고 지칭될 수 있다. 일반적으로, 지오태그(geotag)는 사진이 캡쳐된 위치의 경도 및 위도 좌표와 같은 지리적 위치 정보를 포함한다. 자동 지오태깅은 전형적으로 사진을 위한 이미지를 캡쳐할 때 GPS(geographical positioning system)를 가지는 장치(예컨대, 디지털 스틸 카메라, 디지털 비디오 카메라, 이미지 센서를 가진 모바일 장치)를 사용함으로써 이미지 캡쳐 장치 상에 로컬적으로 저장될 때 (및/또는 원격 데이터베이스로 업로드될 때) GPS 좌표가 캡쳐된 이미지와 연관되도록 하는 것을 지칭한다. 그 외 다른 경우에, 셀아이디(CellID)(CID라고도 지칭되며 특정 셀 폰 운영 스테이션 또는 섹터를 위한 셀룰러 네트워크 셀의 식별 번호이다)가 위치를 나타내기 위하여 사용될 수 있다. 본 발명의 특정 실시예들에 따라, 지리적 및 건축적인 랜드마크들을 위한 특수한 자동 지오태깅이 달성될 수 있다.

첫번째 예로서, 디지털 사진의 날짜/시간 및 위치 정보는 디지털 사진의 메타데이터로부터 추출될 수 있고 날짜/시간 및 위치 코드들을 사용하여 데이터베이스가 검색될 수 있다. 데이터베이스는 날씨 데이터베이스일 수 있으며, 여기서 디지털 사진로부터 추출된 위치 및 날짜/시간에서 날씨에 대한 조회는 그 특정 위치 및 시간에 대한 날씨와 관련된 정보(또는 코드)를 리턴한다. 예를 들어, 조회의 결과는, "대체로 맑음(Mostly Sunny)", "맑음(Sunny)", "약간 맑음(Clear)", "쾌적(Fair)", "약간 흐림(Partly Cloudy)", "흐림(Cloudy)", "대체로 흐림(Mostly Cloudy)", "비(Rain)", "강한 비(Showers)", "약한 비(Sprinkles)", 및 "태풍(T-storms)"과 같이, 태그로서 사용될 수 있는 날씨 코드 및/또는 설명을 제공할 수 있다. 물론, 검색되고 있는 데이터베이스에 따라 그 외 다른 날씨 설명도 이용가능하거나 사용될 수 있다. 예를 들어, 날씨 코드는 "추운(Cold)", "더운(Hot)", "건조한(Dry)", 및 "축축한(Humid)"와 같이, 그 외 다른 날씨 관련 설명자를 포함할 수 있다. 또한, 계절 정보가 포함될 수 있다.

몇몇 경우에, 검색되고 있는 날씨 데이터베이스는 조회에서 사용된 정확한 위치 및 시간에 관한 날씨 정보를 저장하고 있지 않을 수 있다. 그러한 경우의 일 실시예에서, 베스트 매칭(best matching) 검색이 수행될 수 있고 날씨 정보는 (신뢰도 값과 함께) 위치 및 날짜/시간에 가능한 베스트 매치(best match)들을 제공할 수 있다. 예를 들어, 날씨 데이터베이스는 도시에 따라 매 시간마다 갱신되는 날씨 정보를 포함할 수 있다. 그러면, 이 날씨 데이터베이스의 조회는 검색되고 있는 특정 시간에 대해 가장 가까운 시간(들)에 대해 해당 위치를 포함하거나 가장 가까운 (예컨대, 해당 위치는 지정된 도시 경계 외부일 수 있다) 도시에 대한 날씨 정보를 리턴할 수 있다.

일단 사진이 날씨 데이터베이스로부터의 날씨 정보로 태깅되면, "눈이 내리고 있는 동안에 찍힌 화상들을 발견하라"는 조회는 "눈(Snow)"이라는 자동 생성된 날씨 태그를 가지는 사진들을 포함할 수 있다.

위에서 기술된 바와 같이, 사진와 연관된 메타데이터 (및 그 외 다른 태그들)을 사용하는 것에 추가하여, 특징 정보를 추출하기 위하여 사진 이미지에 대해 이미지 인식이 수행되고 인식된 오브젝트 또는 특징과 연관된 태그가 사진에 자동으로 할당된다.

일 예로서, 이미지(또는 패턴) 인식을 사용함으로써 사진로부터 현저한 주변 특징이 추출될 수 있다. 현저한 컬러들이 인식되고 태그로서 사용될 수 있다. 이미지 인식 알고리즘은 사진 내에서 하늘이 현저한 특징인지 여부와 사진 내에서 어떤 컬러들이 있는지 또는 어떤 그 외 다른 눈에 띄는 점들이 있는지를 탐색할 수 있다. 예를 들어, 이미지 인식은 자동으로 "푸른 하늘" 또는 "붉은 하늘" 또는 "녹색 잔디"를 식별할 수 있고 사진은 이들 용어로 태깅될 수 있다.

두번째 예로서, 이미지 인식을 사용하면 알려진 물리적인 오브젝트들은 자동으로 추출될 수 있고, 이러한 알려진 물리적인 오브젝트들이 발견된 사진들은 그 알려진 물리적인 오브젝트들의 명칭들로 자동으로 태깅된다. 특정 실시예들에서, 이미지 인식은 가능한 한 많은 오브젝트들을 발견하고 적절하게 사진을 자동 태깅하기 위해 된다. 만약 이미지 인식 알고리즘에 의하여 야구 방망이, 또는 축구공, 또는 골프채, 또는 개가 검출되면, 이들 용어들을 가진 태그들이 사진에 대한 태그들로서 자동으로 추가될 수 있다. 덧붙여서 오브젝트들은 현저성(prominence)에 의해 자동으로 순위가 매겨질 수 있다. 만약 이미지의 대부분의 영역이 의자를 나타낸다고 결정되지만, 탁자(즉, 이미지 내에서 보여질 수 있는 탁자의 작은 부분) 위에 올려져 있는 작은 야구공이 인식되면, 사진은 "의자", "야구공", 및 "탁자"로 태깅될 수 있다. 다른 실시예들에서, 주된 대상이 의자라는(또는 일 가능성이 있는) 점을 나타내는 지시자를 가진 추가 태그가 포함될 수 있다.

이미지 인식가능한 오브젝트들의 구체적인 데이터베이스에 따라, 태그들의 그래뉼러리티는 변화할 수 있다. 예를 들어, 데이터베이스는, "자동차"에서부터 "BMW 자동차"까지 그리고 "BMW Z4 자동차"까지, 인식가능한 오브젝트들의 증가하는 그래뉼러리티를 가질 수 있다.

세번째 예로서, 알려진 지리적 랜드마크들이 결정될 수 있고 이미지 인식 및 지오태깅의 조합을 사용함으로써 사진로부터 정보가 추출될 수 있다. 사진 이미지 자체로부터의 데이터는 이미지 인식을 통해 추출될 수 있고 이미지 인식된 형태들이나 오브젝트들은 사진의 메타데이터 또는 지오태그로부터 추출된 위치 정보와 대응하는 위치에 있거나 또는 그 근처에 있는 알려진 지리적 랜드마크들과 비교될 수 있다. 이것은 지리적 랜드마크 정보를 가지고 있는 데이터베이스를 조회함으로써 이루어질 수 있다. 예를 들어, 데이터베이스는 알려진 강, 호수, 산, 및 계곡의 명칭과 지리적 위치를 가지는 지도와 연관될 수 있다. 일단 지리적 랜드마크가 사진 내에 있다는 것이 인식되고 지리적 랜드마크의 명칭이 결정되면, 사진은 지리적 랜드마크의 명칭으로 자동 태깅될 수 있다.

예를 들어, 사진 이미지 내에 강이나 호수가 존재한다는 것은 이미지 인식을 사용하여 인식될 수 있다. 사진 이미지가 캡쳐되었던 위치가 구체적인 알려진 강이나 호수와 같은 위치나 근처라는 것을 나타내는 사진과 연관된 지오태그 및 사진 속에 강이나 호수가 있다는 인식을 결합함으로써, 알려진 강이나 호수의 명칭을 사진에 대한 태그로서 자동 생성할 수 있다. 예를 들어, 큰 강이나 호수를 가지며 및 영국에서 템즈강가의 한 위치를 가리키는 지오태그를 가진 사진은 "템즈강" 및 "강"으로 자동 태깅될 수 있다. 도 4는 이러한 프로세스의 일 예를 도시한다. 도 4를 참조하면, 강 위에서의 일출을 보여주고 있는 사진 이미지(401)의 이미지 인식 결과 이미지(401) 내에 강(402)이 존재한다고 결정될 수 있다. 사진 이미지 내에 강이 존재한다고 결정되면, 이 정보는 이미지로부터 추출되고 태그로서 적용되거나 및/또는 추가 메타데이터를 생성하는데 사용될 수 있다. 예를 들어, "강"(402)에 대한 더 구체적인 식별은 사진의 대응하는 메타데이터(403)를 사용하여 이루어질 수 있다. 메타데이터(403)는 위치 메타데이터 및 날짜 시간 메타데이터와 같은 다양한 정보를 포함할 수 있다.

지리적 랜드마크 태그 생성에 있어서, (메타데이터(403)로부터의) 위치 메타데이터와 이미지-인식으로 식별된 오브젝트(402)의 조합이 추가 메타데이터를 생성하기 위해 사용된다. 여기서, 메타데이터(403)는 미시시피강 근처의 위치(미도시)를 나타내며 이미지 인식된 오브젝트는 강이다. 그 결과 식별자 "미시시피강"이 생성되고, 이 식별자는 사진에 대한 태그로서 사용될 수 있다.

구체적인 지리적인 랜드마크에 대한 명칭을 제공하는 지리적인 정보가 없는 것과 같은 특정 실시예들에서, 강이라고 인식된 임의의 형태 또는 오브젝트는 "강"이라고 태깅될 수 있다. 유사하게 해변이라고 인식된 임의의 형태 또는 오브젝트는 "해변" 또는 "해안"으로 태깅될 수 있다.

네번째 예에서, 알려진 건축적 랜드마크가 또한 이미지 인식과 지오태깅의 조합을 사용하여 사진로부터 결정될 수 있다. 사진 이미지 자체로부터의 데이터는 이미지 인식을 통해 추출될 수 있고 이미지 인식된 형태들이나 오브젝트들은 사진의 메타데이터 또는 지오태그로부터 추출된 위치 정보와 대응하는 위치에 있거나 또는 그 근처에 있는 알려진 건축적 랜드마크들과 비교될 수 있다. 이것은 건축적 랜드마크 정보를 가지고 있는 데이터베이스를 조회함으로써 이루어질 수 있다. 일단 건축적 랜드마크가 사진 내에 있다는 것이 인식되고 건축적 랜드마크의 명칭이 결정되면, 사진은 건축적 랜드마크의 명칭으로 자동 태깅될 수 있다. 에펠탑, 중국의 만리장성, 또는 기자의 대피라미드를 포함하는 건축적 랜드마크들은 그것들의 독특한 형태 및/또는 특징들에 기인하여 인식될 수 있다. 사진 내의 특정 구조물의 존재는 이미지 인식 및 해당 구조나 특징과 연관된 단어로 태깅된 사진을 사용하여 인식될 수 있다. 데이터베이스를 검색함으로써 결정되는 구체적인 구조물의 명칭은 태그로 추가될 수 있다.

예를 들어, 만약 이미지 인식 결과 사진 이미지 내에 피라미드가 존재한다고 결정되고 사진의 지오-태깅은 사진 이미지가 캡쳐되었던 위치가 기자의 피라미드 근처를 나타내면, 사진은 "피라미드"에 추가하여 "기자의 피라미드" (또는 "기자의 대피라미드")로 태깅될 수 있다. 도 5는 이러한 프로세스의 일 예를 도시한다. 도 5를 참조하면, 에펠탑 아래에 있는 사람을 보여주고 있는 사진 이미지(501)의 이미지 인식은 이미지(501) 내에 건축 구조물(502)이 존재한다는 판정 결과를 낳을 수 있다. 사진 이미지 내에 건축 구조물이 존재한다고 결정되면, 이 정보는 이미지로부터 추출되고 태그로서 적용되거나 및/또는 추가 메타데이터를 생성하는데 사용될 수 있다. 이 정보(예컨대, 사진 이미지 내에 건축 구조물이 존재한다는 정보)가 추출된 특정 실시예들에서, 사진은 "건축 구조물"의 이미지-인식된 오브젝트와 연관된 하나의 단어 또는 단어들로 태깅될 수 있다. "건축 구조물"의 더 구체적인 식별은 사진의 대응하는 메타데이터(503)를 사용하여 이루어질 수 있다. 메타데이터(503)는 위치 메타데이터 및 날짜 시간 메타데이터와 같은 다양한 정보를 포함할 수 있다. 특정 실시예들에서, 사진의 메타데이터(503)는 또한 카메라 특정 메타데이터 및 임의의 사용자가 생성한 또는 그 외 다른 자동으로 생성된 태그들을 포함할 수 있다.사진와 연관된 메타데이터(503)의 이러한 목록은 사진와 연관된 구체적인 정보를 제한하거나 필수적으로 요구하는 것으로 해석되어서는 안되며 단지 몇몇 통상적인 메타데이터를 예시하는 것으로만 의도된다.

건축적 랜드마크 태그 생성에 있어서, (메타데이터(503)로부터의) 위치 메타데이터와 이미지-인식으로 식별된 오브젝트(502)의 조합은 추가 메타데이터를 생성하기 위해 사용된다. 여기서, 메타데이터(503)는 에펠탑 근처의 위치(미도시)를 나타내며 이미지 인식된 오브젝트는 건축 구조물이다. 그 결과 식별자 "에펠탑"이 생성되고, 이 식별자는 사진에 대한 태그로서 사용될 수 있다.

인식가능한 오브젝트의 태그를 자동 생성하기 위해 유사한 프로세스가 수행될 수 있다. 예를 들어, 사진에서 고속도로가 인식되면, 사진은 "고속도로"라고 태깅될 수 있다. 만약 알려진 미술 작품이 인식되면, 사진은 그 미술 작품의 명칭으로 태깅될 수 있다. 예를 들어, 로댕의 조작품, 생각하는 사람(The Thinker)의 사진은 "생각하는 사람" 및 "로댕"으로 태깅될 수 있다. 알려진 오브젝트 데이터베이스는 이미지 인식 프로그램에 의해 액세스가능할 수 있는 하나의 데이터베이스이거나 또는 다수의 데이터베이스들일 수 있다.

일 실시예에서, 이미지 인식 프로세싱은, 비교를 위해 추가적인 데이터세트들이 이용가능하게 하는, 사진이 찍힌 위치와 연관되거나 그 위치로 태깅된 이미지들의 데이터베이스를 액세스한 이후 수행될 수 있다.

움직이는 이미지들(예컨대, 비디오)과 관련된 일 예에서, (오디오 컴포넌트와 비주얼 컴포넌트를 가지는) 실시간 비디오 스트림이 입력될 수 있고 지정된 프레임들로부터 이미지 인식되고 추출된 데이터에 따라 자동 태깅될 수 있다. 주변 음향도 또한 비디오에 대한 태그로서 음향 특징이 덧붙여지도록 하기 위하여 인식 알고리즘에 의해 처리될 수 있다. 몇몇 예들에서, 발화(speech) 및 어조(tone) 인식, 음악 인식, 및 음향 인식(예컨대, 자동차 경적, 시계탑 종소리, 박수)이 수행될 수 있다. 비디오 상의 음성의 어조를 식별함으로써, 비디오는 "분노"와 같은 감정 기반 용어로 자동 태깅될 수 있다.

본 명세서에서 제공되는 예시들에 추가하여, 이미지 내에서 오브젝트를 검출하기 위해 그리고 그 검출된 오브젝트와 관련된 정보 - 이 정보는 이미지에 태그로서 연관될 수 있다 - 를 발견하기 위하여 데이터베이스를 검색하기 위하여 임의의 수의 기법들이 사용될 수 있다는 점이 이해되어야 한다.

상기 예시들은 이미지와 연관된 하나 이상의 타입의 태그들을 자동 생성하는 것과 관련하여 본 명세서에서 기술된 사용 범위나 기법들의 기능 등에 대한 어떠한 제한을 암시하는 것으로 의도되지 않는다.

특정 실시예들에서, 자동 태깅이 발생하는 환경은 사용자 장치 및 네트워크를 통해 사용자 장치와 통신하는 태그 생성기 제공자를 포함한다. 네트워크는 셀룰러(예컨대, 무선 전화) 네트워크, 인터넷, LAN(local area network), WAN(wide area network), WiFi 네트워크, 또는 이들의 조합을 포함하지만, 이들로 제한되는 것은 아니다. 사용자 장치는 컴퓨터, 이동 전화, 또는 사진나 비디오를 디스플레이 및/또는 저장할 수 있고 네트워크를 통해 (사진나 비디오를 포함하는) 컨텐트를 송신하고 액세스할 수 있는 그 외 다른 장치를 포함하지만, 이들로 제한되는 것은 아니다. 태그 생성기 제공자는 사용자 장치로부터 컨텐트를 수신하고 자동 태그 생성을 수행하도록 구성된다. 특정 실시예들에서, 태그 생성기 제공자는 사진 공유 제공자와 같은 파일 공유 제공자와 통신하거나 또는 파일 공유 제공자의 일부이다. 태그 생성기 제공자는 프로그램 모듈들을 제공하고 실행하는 컴포넌트들을 포함할 수 있다. 이들 컴포넌트들은 (로컬에 존재하거나 분산되어 있을 수 있는데) 프로세서(예컨대, CPU(central processing unit)) 및 메모리를 포함할 수 있지만, 이들로만 제한되는 것은 아니다.

일 실시예에서, 자동 태깅은 (프로그램 모듈들을 실행할 수 있는, 프로세서 및 메모리와 같은 컴포넌트를 포함하는) 사용자 장치의 일부로서 직접적으로 프로그램 모듈들을 통해 성취될 수 있다. 그러한 실시예들 중 일부에서, 태그 생성기 제공자는 사용되지 않는다. 그 대신, 사용자 장치는 네트워크를 통해 데이터베이스 제공자들(또는 데이터베이스들을 저장하고 있는 그 외 다른 사용자나 제공자 장치들)과 통신하거나 또는 사용자 장치에 저장되어 있는 데이터베이스나 연결되어 있는 데이터베이스에 액세스한다.

본 명세서에서 제공된 특정 기법들은 하나 이상의 컴퓨터 또는 그 외 다른 장치들에 의해 실행되는, 프로그램 모듈들과 같은, 컴퓨터-실행가능 인스트럭션의 일반적인 맥락에서 기술될 수 있다. 일반적으로, 프로그램 모듈에는 특정 태스크를 수행하거나 또는 특정한 추상적인 데이터 타입을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 및 데이터 구조가 포함된다. 많은 실시예들에서, 프로그램 모듈들의 기능은 컴퓨팅 시스템 또는 환경에 따라 필요한 경우 결합되거나 분산될 수 있다. 해당 기술분야의 지식을 가진 자라면 본 명세서에서 기술된 기법들이 그 외 다른 일반 목적 및 특수 목적 컴퓨팅 환경 및 구성들과 함께 사용하기에 적절할 수 있다는 점을 이해할 것이다. 컴퓨팅 시스템, 환경, 및/또는 구성의 예에는 개인용 컴퓨터, 서버 컴퓨터, 핸드핼드 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 프로그래머블 가전, 및 위의 시스템이나 장치 중 임의의 것을 포함하는 분산 컴퓨팅 환경이 포함되지만, 이들로 제한되는 것은 아니다.

해당 기술분야의 지식을 가진 자라면 컴퓨터 판독가능 매체는, 휘발성 및 비-휘발성 메모리, 자기-기반 구조/장치 및 광-기반 구조/장치의 형태로, 컴퓨터 판독가능 인스트럭션, 데이터 구조, 프로그램 모듈, 및 컴퓨팅 시스템/환경에 의해 사용되는 그 외 다른 데이터와 같은, 정보의 저장을 위해 사용될 수 있는 탈거가능 및 비탈거가능 구조/장치를 포함하며, 사용자 장치에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있다는 점을 이해해야만 한다. 컴퓨터 판독가능 매체는 임의의 전파 신호를 포함하는 것으로 해석되거나 간주되지 않아야만 한다.

본 명세서에서 "일 실시예", "임의의 일시예", "예시적인 실시예" 등으로 지칭하는 것은 그 실시예와 관련되어 기술된 임의의 구체적인 특징, 구조, 또는 특성이 본 발명의 적어도 하나의 실시예에 포함된다는 것을 의미한다. 본 명세서에서 그러한 구절이 다양한 위치에서 나타나지만 모든 구절들이 반드시 동일 실시예를 지칭하는 것은 아니다. 덧붙여서, 본 명세서에서 개시된 임의의 발명이나 그것의 실시예의 임의의 요소들이나 제한들은 본 명세서에서 개시된 임의의 및/또는 모든 그 외 다른 요소들이나 제한들(개별적으로 또는 임의의 조합으로)이나 본 명세서에서 개시된 임의의 그 외 다른 발명이나 그것의 실시예와 조합될 수 있고, 그러한 조합들 모두는 제한없이 본 발명의 범위 내에 포함되는 것으로 고려된다.

본 명세서에서 기술된 예시들과 실시예들은 오직 예시 목적을 위한 것이며 그런 점에서 다양한 수정이나 변화들이 해당 기술 분야의 지식을 가진 자에 의해 제안될 수 있고 본 출원의 사상과 범주 내에 포함되어야 한다는 것이 이해되어야 한다.

Claims

자동 태그 생성 방법으로서,
이미지와 연관된 이미지 파일로부터 상기 이미지가 캡쳐되었던 위치와 관련된 지리적 정보 및, 선택적으로, 상기 이미지가 캡쳐되었을 때와 관련된 날짜 및 시간을 포함하는 메타데이터를 추출하는 단계,
상기 이미지 내에서 하나 이상의 오브젝트들, 형태들, 특징들, 또는 텍스처(texture)들을 식별하기 위해 이미지 인식을 수행하는 단계,
상기 이미지를 상기 하나 이상의 오브젝트들, 형태들, 특징들, 또는 텍스처들과 관련된 정보 또는 코드로 자동으로 태깅하는 단계,
상기 하나 이상의 오브젝트들, 형태들, 특징들, 또는 텍스처들 중에서 하나의 식별된 오브젝트 또는 형태의 대응하는 디테일(detail)을,
상기 식별된 오브젝트 또는 형태 및 상기 이미지가 캡쳐된 위치를 상기 식별된 오브젝트 또는 형태 및 상기 이미지가 캡쳐된 위치와 관련된 상기 대응하는 디테일과 매칭시키기 위해 적어도 하나의 데이터베이스를 조회하기 위해 상기 식별된 오브젝트 또는 형태 및 상기 지리적 정보와 관련된 정보 또는 코드를 사용함으로써, 또는
상기 식별된 오브젝트 또는 형태 및 상기 이미지가 캡쳐된 때를 상기 식별된 오브젝트 또는 형태 및 상기 이미지가 캡쳐된 때와 관련된 상기 대응하는 디테일과 매칭시키기 위해 적어도 하나의 데이터베이스를 조회하기 위해 상기 식별된 오브젝트 또는 형태 및 상기 날짜 및 시간 정보와 관련된 정보 또는 코드를 사용함으로써, 또는
상기 식별된 오브젝트 또는 형태 및 상기 이미지가 캡쳐된 위치 및 상기 이미지가 캡쳐된 때 둘 모두를 상기 식별된 오브젝트 또는 형태 및 상기 이미지가 캡쳐된 위치 및 상기 이미지가 캡쳐된 때 둘 모두와 관련된 상기 대응하는 디테일과 매칭시키기 위해 적어도 하나의 데이터베이스를 조회하기 위해 상기 식별된 오브젝트 또는 형태 및 상기 지리적 정보와 상기 날짜 및 시간 정보 둘 모두와 관련된 정보 및 코드를 사용함으로써 결정하는 단계, 및
상기 대응하는 디테일과 관련된 정보 또는 코드로 상기 이미지를 자동 태기하는 단계
를 포함하는, 자동 태그 생성 방법.
제 1 항에 있어서,
상기 이미지 내에서 하나 이상의 오브젝트들, 형태들, 특징들, 또는 텍스처들을 식별하기 위해 이미지 인식을 수행하는 단계는 상기 이미지 파일로부터 추출된 상기 지리적 정보를 사용하는,
방법.
제 1 항 또는 제 2 항에 있어서,
상기 이미지 내에서 하나 이상의 랜드마크들을 식별하기 위해 랜드마크 인식을 수행하는 단계, 및
상기 이미지를 상기 하나 이상의 랜드마크들과 관련된 정보 또는 코드로 자동 태깅하는 단계
를 포함하는, 방법.
제 3 항에 있어서,
상기 랜드마크 인식을 수행하는 단계는,
상기 이미지 인식을 수행하는 동안에 인식된 상기 이미지 내의 선택된 하나 이상의 오브젝트들과 연관된 정보 및 코드 및 상기 이미지 파일로부터 추출된 상기 지리적 정보를 사용하여 건축적 또는 지리적 랜드마크들의 데이터베이스를 조회하는 단계를
포함하는, 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
적어도 하나의 데이터베이스를 조회하기 위하여 상기 이미지와 연관된 상기 이미지 파일로부터 추출된 상기 지리적 정보 및 상기 날짜 및 시간 정보를 사용함으로써 상기 이미지가 캡쳐되었던 위치에서 및 상기 이미지가 캡쳐되었던 날짜 및 시간 동안에 발생되었던 대응하는 이벤트 조건을 결정하는 단계, 및
상기 이미지를 상기 대응하는 이벤트 조건과 관련된 정보 및 코드로 자동 태깅하는 단계
를 더 포함하는, 방법.
실행될 때 제 1 항 내지 제 5 항 중 어느 한 항의 방법을 수행하는 인스트럭션을 저장하고 있는 컴퓨터-판독가능 매체.
자동 태그 생성을 수행하기 위한 컴퓨터-판독가능 인스트럭션을 저장하고 있는 컴퓨터-판독가능 매체로서,
상기 인스트럭션은,
이미지와 연관된 이미지 파일로부터, 상기 이미지가 캡쳐되었던 위치와 관련된 임의의 지리적인 정보를 포함하는 메타데이터를 추출 - 상기 이미지는 사진 또는 비디오의 프레임을 포함함 - 하는 단계,
상기 이미지 내의 오브젝트를 식별하기 위해 이미지 인식을 수행하는 단계,
상기 오브젝트 및 상기 이미지가 캡쳐되었던 위치에 대응하는 적어도 하나의 특정 조건을,
상기 오브젝트 및 상기 이미지가 캡쳐되었던 위치와 매칭하는 적어도 하나의 특정 조건에 대해 데이터베이스를 조회함으로써, 및
상기 데이터베이스로부터 상기 적어도 하나의 특정 조건과 연관된 정보 또는 코드를 수신함으로써 결정하는 단계, 및
상기 이미지를 상기 적어도 하나의 특정 조건과 연관된 상기 정보 및 코드로 자동 태깅하는 단계
를 포함하는, 컴퓨터-판독가능 매체.
제 7 항에 있어서,
상기 인스트럭션은,
상기 이미지 내에서 상기 오브젝트를 식별하기 위해 상기 이미지 인식을 수행하는 단계 이후 상기 이미지 내에서 상기 오브젝트와 연관된 단어 또는 코드로 이미지를 자동 태깅하는 단계
를 더 수행하는, 컴퓨터-판독가능 매체.
제 7 항 또는 제 8 항에 있어서,
상기 이미지 인식을 수행하는 단계는 상기 오브젝트를 식별하는 것을 용이하게 하기 위하여 상기 이미지 파일로부터 추출된 상기 메타데이터를 사용하는 단계를 더 포함하는
컴퓨터-판독가능 매체.
제 7 항 내지 제 9 항 중 어느 한 항에 있어서,
상기 이미지 파일로부터 추출된 상기 메타데이터는 상기 이미지가 캡쳐되었던 때와 관련된 날짜 및 시간 정보를 포함하고,
상기 적어도 하나의 특정 조건과 연관된 상기 정보 또는 코드는 이벤트 정보 또는 코드, 날씨 정보 또는 코드, 지리적 랜드마크 정보 또는 코드, 건축적 랜드마크 정보 또는 코드, 또는 이들의 조합을 포함하는
컴퓨터-판독가능 매체.