KR20160012901A

KR20160012901A - 이미지를 검색하는 방법 및 그 전자 장치

Info

Publication number: KR20160012901A
Application number: KR1020150082682A
Authority: KR
Inventors: 난전다 아이어 키란; 베라 비스와나스; 고팔라크리쉬난 비스와나스; 로코주 사티쉬; 쿠말 라우시안
Original assignee: 삼성전자주식회사
Priority date: 2014-07-25
Filing date: 2015-06-11
Publication date: 2016-02-03

Abstract

본 발명은 전자 장치에서 이미지 검색에 대한 것으로, 전자 장치의 동작 방법은, 입력 이미지 데이터에서 객체 데이터 및 상기 객체 데이터에 대응하는 위치 데이터를 결정하는 과정, 이미지 데이터 베이스로부터 상기 위치 데이터에 대응하는 적어도 하나의 이미지를 검색하는 과정을 포함한다.

Description

이미지를 검색하는 방법 및 그 전자 장치{METHOD FOR RETRIEVING IMAGE AND ELECTRONIC DEVICE THEREOF}

본 명세서에 개시된 실시 예들은 이미지 검색에 대한 것이다.

디지털 영상 기술의 향상 및 인터넷에 의해 용이해진 쉬운 사용 가능성으로 인해 디지털 이미지의 인기가 빠르게 증가하고 있다. 점점 더 많은 디지털 이미지들이 매일 사용 가능해지고 있다. 자동 이미지 검색 시스템은 사용자가 증가하는 사용 가능한 이미지 개수를 통해서 효율적으로 탐색할 수 있는 방법을 제공한다.

기존 이미지 검색 및 이미지 검색 시스템들은 사용자가 텍스트 기반 이미지 검색 또는 콘텐츠 기반 이미지 검색을 통해 이미지들을 검색하는 것을 허용한다. 텍스트 기반 이미지 검색 시, 사용자가 텍스트를 사용하여 검색되는 이미지를 정확하게 설명하는 것은 어렵다. 결과적으로, 설명될 수 없거나 단지 모호하게만 설명될 수 있는 이미지들이 성공적으로 검색될 수 없는 경우, 검색 정확성은 심각하게 제한된다.

또한, 콘텐트 기반 이미지 검색 시, 이미지 검색은 질의 이미지 및 검색된 이미지들의 특징에서의 유사성을 기반으로 하기 때문에, 검색 정확성이 영향을 받는다. 기존 시스템들에 의해 수행되는 검색은 유사한 특징들을 갖는 전혀 관련 없는 이미지들을 검색할 수 있다.

또한, 기존 이미지 데이터 베이스들은 이미지 데이터 베이스에 저장된 엄청난 양의 이미지를 포함한다. 이미지 수의 증가는 이미지들을 검색하는 속도 및 정확성을 감소시킨다. 기존 시스템 및 방법들은 이미지 데이터 베이스로부터 이미지들을 검색하는 효과적이고 빠른 방법을 제공하지 않는다.

상기 정보는 단지 독자에게 본 발명의 이해를 돕기 위한 배경 정보로서만 제시된다. 출원인들은 상기 중 어느 것이 본 출원에 관한 선행 기술로서 적용될 수 있는 지 여부와 관련하여 어떠한 결정도 어떠한 주장도 하지 않는다.

본 명세서에 기재된 실시 예들의 주요 목적은 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 시스템 및 방법을 제공하는 것이다.

본 명세서에 기재된 실시 예들의 다른 목적은 전자 장치에서 입력 이미지 데이터를 수신하는 메커니즘을 제공하는 것이다. 입력 이미지 데이터는 사용자에 의해 질의된 의미 구성에 대응하는 객체(object) 데이터 및 위치 데이터를 포함한다.

본 명세서에 기재된 실시 예들의 또 다른 목적은 전자 장치에 의해 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 일치하는 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 메커니즘을 제공하는 것이다.

본 명세서에 기재된 실시 예들의 또 다른 목적은 전자 장치의 사용자 인터페이스에 검색된 이미지를 표시하는 메커니즘을 제공하는 것이다. 검색된 이미지는 사용자가 제공한 입력 이미지 데이터의 의미 구성 정보와 일치한다.

본 명세서에 기재된 실시 예들의 또 다른 목적은 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 이미지 데이터 베이스의 각각의 이미지를 관련시키는 메커니즘을 제공하는 것이다.

본 명세서에 기재된 실시 예들의 또 다른 목적은 이미지의 의미 구성을 이해하기 위해 이미지의 감시 분할(supervised segmentation) 중 적어도 하나의 정확성을 향상시키기 위해 비감시 분할 정보 중 적어도 하나를 사용하여 각각의 이미지와 관련된 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 추출하는 메커니즘을 제공하는 것이다.

따라서, 본 명세서에 기재된 실시 예들은 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 방법을 제공한다. 방법은 입력 이미지 데이터를 전자 장치에서 수신하는 단계를 포함한다. 입력 이미지 데이터는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 포함한다. 또한, 방법은 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 일치하는 이미지 데이터 베이스로부터 적어도 하나의 이미지를 전자 장치에 의해 검색하는 단계를 포함한다.

따라서, 본 명세서에 기재된 실시 예들은 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하기 위해 구성되는 전자 장치를 제공한다. 전자 장치는 제어기 모듈을 포함한다. 제어기 모듈은 입력 이미지 데이터를 수신하도록 구성된다. 입력 이미지 데이터는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 포함한다. 제어기 모듈은 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 일치하는 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하도록 구성된다.

따라서, 본 명세서에 기재된 실시 예들은 컴퓨터 판독 가능한 비일시적 저장 매체에 레코딩된 컴퓨터 실행 가능 프로그램 코드를 포함하는 컴퓨터 프로그램 제품을 제공한다. 실행될 때, 컴퓨터 실행 가능 프로그램 코드는 입력 이미지 데이터를 전자 장치에서 수신하는 단계를 포함하는 작업(action)들을 초래한다. 입력 이미지 데이터는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 포함한다. 실행될 때, 컴퓨터 실행 가능 프로그램 코드는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 일치하는 이미지 데이터 베이스로부터 적어도 하나의 이미지를 전자 장치에 의해 검색하는 단계를 포함하는 작업들을 초래한다.

본 발명의 일 실시 예에 따른 전자 장치의 동작 방법은, 입력 이미지 데이터에서 객체 데이터 및 상기 객체 데이터에 대응하는 위치 데이터를 결정하는 과정, 이미지 데이터 베이스로부터 상기 위치 데이터에 대응하는 적어도 하나의 이미지를 검색하는 과정을 포함한다.

본 발명의 일 실시 예에 따른 전자 장치는, 입력 이미지 데이터에서 객체 데이터 및 상기 객체 데이터에 대응하는 위치 데이터를 결정하고, 이미지 데이터 베이스로부터 상기 위치 데이터에 대응하는 적어도 하나의 이미지를 검색하는 제어기 모듈을 포함한다.

본 명세서에 기재된 실시 예들의 이들 및 다른 양태들은 첨부 도면 및 다음의 설명과 함께 고려될 때 더 잘 이해될 것이다. 그러나, 다음의 설명들은, 바람직한 실시 예 및 이들의 많은 구체적인 세부 사항들을 지시하지만, 한정이 아닌 예시로 주어진다는 것을 이해해야 한다. 발명의 취지를 벗어나지 않고 본 명세서에 기재된 실시 예들의 범위 내에서 많은 변경 예 및 수정 예들이 이루어질 수 있으며, 본 명세서에 기재된 실시 예들은 모두 이러한 수정 예들을 모두 포함한다.

전자 장치에서 의미 정보에 기초하여 이미지를 검색함으로써, 보다 사용자의 의도가 반영된 효과적인 이미지 검색이 가능하다.

본 발명이 첨부 도면들에 도시되고, 첨부 도면 전반에 걸쳐서 유사 참조 문자들은 여러 도면들에서 해당 부품들을 지시한다. 본 명세서에 기재된 실시 예들은 도면들을 참조하여 다음의 설명으로부터 더 잘 이해될 것이다.
도 1a는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하기 위해 구성되는 전자 장치의 블록도를 도시한다.
도 1b는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하기 위해 구성되는 전자 장치의 다른 블록도를 도시한다.
도 2는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터가 기준 이미지에서 획(stroke)들로 사용자에 의해 지시될 때 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 예시적 시나리오를 도시한다.
도 3a는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 기준 이미지에 획들로 사용자에 의해 지시될 때 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 방법을 도시하는 흐름도이다.
도 3b는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 기준 이미지에 획들로 사용자에 의해 지시될 때 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하여 표시되는 전자 장치의 사용자 인터페이스를 도시한다.
도 4는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터가 기준 이미지에 명명법(nomenclature)으로 사용자에 의해 지시될 때 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 예시적 시나리오를 도시한다.
도 5a는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 기준 이미지에 명명법으로 사용자에 의해 지시될 때 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 방법을 도시하는 흐름도이다.
도 5b는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 기준 이미지에 명명법으로 사용자에 의해 지시될 때 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하여 표시되는 전자 장치의 사용자 인터페이스를 도시한다.
도 6은 본 명세서에 기술된 바와 같은 실시 예들에 따라, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터가 전자 장치의 사용자 인터페이스에 사용자의 의해 그려질 경우 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 예시적 시나리오를 도시한다.
도 7a는 본 명세서에서 기술된 바와 같은 실시 예들에 따라, 위치 데이터가 전자 장치의 사용자 인터페이스에 사용자에 의해 그려질 경우 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 방법을 도시하는 흐름도이다.
도 7b는 본 명세서에서 기술된 바와 같은 실시 예들에 따라, 위치 데이터가 전자 장치의 사용자 인터페이스에 사용자에 의해 그려질 경우 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하여 표시되는 전자 장치의 사용자 인터페이스를 도시한다.
도 8은 본 명세서에 기술된 바와 같은 실시 예들에 따라, 비디오 데이터 베이스로부터 적어도 하나의 비디오를 검색하는 예시적 시나리오를 도시한다.
도 9는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 각각의 이미지를 관련시키는 예시적 시나리오를 도시한다.
도 10은 본 명세서에 기술된 바와 같은 실시 예들에 따라, 적어도 하나의 이미지를 검색하는 방법을 도시하는 흐름도이다.
도 11은 본 명세서에 기술된 바와 같은 실시 예들에 따라, 각각의 이미지와 관련된 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 추출하는 방법을 도시하는 흐름도이다.
도 12a는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 감시 학습 기법 및 비감시 학습 기법을 사용하여 획득되는 분할된 이미지의 일 예를 도시한다.
도 12b는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 감시 학습 기법 및 비감시 학습 기법을 사용하여 획득되는 분할된 이미지의 다른 예를 도시한다.
도 12c는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 감시 학습 기법 및 비감시 학습 기법을 사용하여 획득되는 분할된 이미지의 다른 예를 도시한다.
도 13은 본 명세서에 기술된 바와 같은 실시 예들에 따라, 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 방법을 구현하는 컴퓨팅 환경을 도시한다.

본 명세서에 기재된 실시 예들 및 이들의 다양한 기능 및 유리한 세부 사항들이, 첨부 도면에 도시되고 다음의 설명에서 상세히 설명되는 비 제한적인 실시 예들을 참조하여 보다 완벽하게 설명된다. 잘 알려진 구성 요소들 및 처리 기술들의 설명은 본 명세서에 기재된 실시 예들을 불필요하게 모호하게 하지 않도록 생략된다. 또한, 본 명세서에 기술된 다양한 실시 예들은 일부 실시 예들이 새로운 실시 예들을 형성하기 위해 하나 이상의 다른 실시 예들과 결합될 수 있기 때문에, 반드시 상호 배타적일 필요는 없다. 본 명세서에서 사용되는 용어 '또는'은 달리 명시되지 않는 한 비 독점적(non-exclusive)임을 나타낸다. 본 명세서에 사용된 예들은 단지 본 명세서에 기재된 실시 예들이 실시될 수 있는 방법들의 이해를 용이하게 하고, 또한 당업자들이 본 명세서에 기재된 실시 예들을 실시할 수 있도록 하기 위한 것이다. 따라서, 예들은 본 명세서에 기재된 실시 예들의 범위를 한정하는 것으로 해석 되어져서는 안될 것이다.

본 명세서에 기재된 실시 예들은 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하기 위해 구성되는 전자 장치 및 방법을 제공한다. 구체적으로, 본 발명은 사용자 제공 의미 구성(user provided semantic composition) 정보를 기반으로 하여 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 방법 및 시스템에 관한 것이다.

데이터 베이스로부터 이미지를 검색하기 위해, 입력 이미지 데이터가 전자 장치에서 수신된다. 여기서, 데이터 베이스는 다수의 이미지들을 포함하는 적어도 하나의 데이터의 집합을 의미한다. 또한, 데이터 베이스는 이미지 데이터 베이스로 지칭 되어질 수 있다. 다수의 이미지들은 전자 장치 내부에 저장되거나, 또는, 외부에 저장될 수 있다. 입력 이미지 데이터는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 포함한다. 객체 데이터는 이미지에서 객체가 표현하는 것에 관한 정보를 포함할 수 있다. 예를 들어, 객체 데이터는 '자동차', '나무', 또는 '산'일 수 있다. 위치 데이터는 이미지에서 객체의 라벨의 커버리지 영역을 포함한다.

일 실시 예에서, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 기준 이미지에 획(stroke)들로 사용자에 의해 지시된다. 다른 실시 예에서, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 기준 이미지에 명명법(nomenclature)으로 사용자에 의해 지시된다. 다른 실시 예에서, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 전자 장치의 사용자 인터페이스에 사용자에 의해 그려진다.

입력 이미지 데이터를 수신한 후, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 일치하는 이미지 데이터 베이스로부터 적어도 하나의 이미지가 검색된다. 검색된 이미지는 전자 장치의 사용자 인터페이스에 표시된다.

이미지 데이터 베이스는 복수의 이미지들을 포함한다. 복수의 이미지의 각각의 이미지는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 관련된다. 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 각각의 이미지의 의미 정보를 지시한다. 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 이미지의 감시 분할 중 적어도 하나의 정확성을 향상시키기 위해 비감시 분할 정보 중 적어도 하나를 사용하는 것을 기반으로 하여 각각의 이미지로부터 추출된다.

기존 방법 및 시스템들과 달리, 제안된 방법은 입력 이미지 데이터의 입력 이미지 구성이 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 사용하여 표현되기 때문에 정확하게 이미지를 검색한다. 제안된 시스템 및 방법은 사용자가 의미 데이터의 구성으로서 입력 이미지를 지시할 수 있도록 한다. 입력 이미지 데이터가 의미 데이터 또는 를 사용하여 표현되기 때문에, 입력 이미지 데이터를 분할 또는 처리하는 것이 필수적인 것은 아니다. 따라서, 계산이 감소되고, 그로 인해 이미지를 검색하기 위해 필요한 시간이 감소한다.

또한, 이미지 데이터 베이스에서 각각의 이미지는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 또한 관련된다. 이미지는 메타데이터로서 의미정보와 함께 저장된다. 입력 이미지 데이터 및 이미지 데이터 베이스의 이미지들은 의미 정보를 사용하여 표현되기 때문에, 입력 이미지 데이터와 일치하는 이미지들에 대한 검색은 기존의 검색 보다 더 빠르다.

본 발명은 다양한 도면들에서 해당 부분을 지시하는 참조 문자들과 함께 첨부된 도면에서 도시된다. 여기서, 실시 예들은 도면들에 기초하는 설명들을 따라 보다 쉽게 이해 되어 진다.

도 1a는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하기 위해 구성되는 전자 장치 100의 블록도를 도시한다. 본 명세서에 기술된 전자 장치 100은 휴대폰, 스마트폰, 무선 사무국(wireless organizer), 개인 휴대 정보 단말기(personal data assistant, PDA), 데스크톱 컴퓨터, 단말기, 랩톱, 태블릿, 핸드헬드 무선 통신 장치, 노트북 컴퓨터, 휴대용 게임 장치, 인터넷 연결 TV, 셋톱 박스, 디지털 액자, 디지털 카메라, 차량 내 엔터테인먼트 시스템, MP3나 비디오 플레이어와 같은 엔터테인먼트 장치 등일 수 있다.

전자 장치 100은 제어기 모듈 102, 데이터 베이스 104, 사용자 인터페이스 106, 및 통신 모듈 108을 포함하도록 구성될 수 있다. 데이터 베이스 104는 이미지 데이터 베이스 또는 비디오 데이터 베이스를 포함할 수 있다. 여기서 제어기 모듈 102는 '제어 모듈'로 지칭될 수 있다.

제어기 모듈 102는 입력 이미지 데이터를 수신하도록 구성될 수 있다. 입력 이미지 데이터는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 포함한다.객체 데이터는 이미지에서 객체가 나타내는 것에 관한 정보를 포함한다. 예를 들어, 객체 데이터는 '자동차', '나무', 또는 '산'일 수 있다. 위치 데이터는 이미지에서 객체의 라벨의 커버리지 영역을 포함한다. 일 실시 예에서, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 기준 이미지에 획들로 사용자에 의해 지시된다. 다른 실시 예에서, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 기준 이미지에 명명법으로 사용자에 의해 지시된다.

또 다른 실시 예에서, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 전자 장치 100의 사용자 인터페이스 106에 사용자에 의해 그려진다.

일 실시 예에서, 사용자 인터페이스 106은 외부 모니터, 패널, TV 스크린, 프로젝터, 또는 블루투스(Bluetooth) 송수신기, 범용 시리얼 버스(universal serial bus, USB) 포트, 고화질 멀티미디어 인터페이스(high definition multimedia interface, HDMI) 포트, 디지털 비디오 인터렉티브(digital video interactive, DVI) 포트 등과 같은 데이터 포트나 송신기를 통한 가상 망막 표시와 같은 외부 표시부일 수 있다.

다른 실시 예에서, 사용자 인터페이스 106은 전자 장치 100의 모니터 또는 패널, 전자 장치 100의 터치 스크린 인터페이스 등과 같은 내부 표시부일 수 있다.

또한, 제어기 모듈 102가 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 일치하는 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하도록 구성될 수 있다. 제어기 모듈 102는 전자 장치 100의 사용자 인터페이스 106에 검색된 이미지를 표시하도록 구성될 수 있다. 검색된 이미지는 사용자가 제공한 입력 이미지 데이터의 의미 구성 정보와 일치한다.

이미지 데이터 베이스는 복수의 이미지를 포함한다. 복수의 이미지의 각각의 이미지는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 관련된다. 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 각각의 이미지의 의미 정보를 지시한다. 이미지는 이미지의 메타데이터로서 의미 정보와 함께 이미지 데이터 베이스에 저장될 수 있다. 각각의 이미지가 의미 메타데이터와 함께 저장되기 때문에, 입력 이미지 데이터와 일치하는 이미지들의 검색이 더 빠르다.

객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 감시 학습 기법 및 비감시 학습 기법 중 적어도 하나를 기반으로 하여 각각의 이미지로부터 추출된다. 제어기 모듈 102는 감시 학습 기법(supervised learning technique)과 비감시 학습 기법(unsupervised learning technique)의 조합을 사용하여 이미지로부터 의미 정보를 추출하도록 구성될 수 있다. 따라서, 기법들 중 하나에서 발생하는 오류들은 의미 정보의 정확한 추출을 제공함으로써 제거된다.

도 1b는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하기 위해 구성되는 전자 장치 100의 블록도를 도시한다. 일 실시 예에서, 이미지들의 풀(pool)을 포함하는 데이터 베이스 104는 검색 엔진, 이미지 검색 시스템 등과 같은 다양한 데이터 소스들로부터 이미지들을 검색하기 위해 사용자에게 서버들을 제공하는 원격 저장부의 부분일 수 있다. 다양한 데이터 소스들이 전자 장치 100에 원격 서비스들을 제공하고 클라우드에 이미지들을 저장하도록 구성될 수 있다. 통신 모듈 108이 전자 장치 100와 데이터 베이스 104 간의 통신을 허용하는 충분한 인터페이스 또는 채널들을 제공하도록 구성될 수 있다.

도 1a 및 도 1b가 전자 장치 100의 한정된 개요를 도시하지만, 다른 실시 예들은 이에 국한되지 않는 것으로 이해해야 한다. 각각의 모듈 또는 구성 요소에 제공되는 라벨들은 단지 예시를 위한 것으로 본 발명의 범위를 한정하지는 않는다. 또한, 하나 이상의 모듈들이 본 발명의 범위를 벗어나지 않고 유사하거나 실질적으로 유사한 기능들을 수행하기 위해 결합되거나 분리될 수 있다. 또한, 전자 장치 100은 서로 통신하기 위해 다른 하드웨어 또는 소프트웨어 구성 요소들과 함께 국부적으로 또는 원격으로 인터랙팅하는 다양한 다른 모듈 또는 구성 요소들을 포함할 수 있다. 예를 들어, 구성 요소는 제어기 또는 프로세서에서 실행하는 프로세스, 객체, 실행 가능 프로세스, 실행 스레드, 프로그램, 또는 컴퓨터일 수 있지만, 이에 국한되지는 않는다.

도 2는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터가 기준 이미지에 획들로 사용자에 의해 지시될 때 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 예시적 시나리오를 도시한다. 도 2에 도시된 바와 같이, 전자 장치 100은 모바일 장치일 수 있다. 이미지 데이터 베이스는 모바일 장치에 설치된 이미지 갤러리 212를 통해 표시되는 복수의 이미지들 일 수 있다.

도 2를 참고하면, 사용자는 이미지 갤러리 212로부터 기준 이미지를 선택할 수 있다. 제어기 모듈 102는 사용자가 입력 이미지 데이터를 제공할 수 있도록 구성될 수 있다. 또한, 제어기 모듈 102는 사용자에 의해 제공되는 입력 이미지 데이터를 수신하도록 구성될 수 있다. 입력 이미지 데이터는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 포함할 수 있다. 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 기준 이미지에 획들 214로 사용자에 의해 지시되는 의미 정보일 수 있다. 또한, 의미정보는 제어기 모듈 102가 이미지에 포함된 객체 및 이미지 내에서 객체에 의해 점유되는 영역의 위치를 결정하도록 제어할 수 있다. 도 2에 도시된 바와 같이, 객체 데이터는 '말 + 여자'를 포함할 수 있다. 객체 데이터 '말 + 여자'와 관련된 위치 데이터는 이미지의 오른쪽 절반에 '말 + 여자'와 같은 위치 매개변수들을 포함할 수 있다. 기준 이미지의 픽셀들이 그래픽 형식으로 표현된다면, 위치 매개변수들은 객체 데이터의 위치 좌표들을 또한 포함할 수 있다.

또한, 의미 정보는 입력 이미지 데이터의 의미 메타데이터 216를 나타내는 것일 수 있다. 모바일 장치에 설치된 이미지 갤러리 212는 복수의 이미지들을 표시할 수 있다. 복수의 이미지 각각은 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 관련된다. 따라서, 이미지 갤러리 212에서 표시되는 각각의 이미지는, 의미 메타데이터와 함께 저장되거나 해당 이미지에 대응하는 의미 메타데이터를 포함하여 저장될 수 있다. 또한, 복수의 이미지들의 각각은 이미지에 포함된 적어도 하나의 객체에 대한 정보 및 적어도 하나의 객체의 위치에 대한 정보와 관련된다. 여기서, 객체 데이터는 객체로 지칭 될 수 있고, 위치 데이터는 위치로 지칭 될 수 있다.

또한, 제어기 모듈 102는 입력 이미지 데이터의 의미 메타데이터와 일치하는 이미지들을 검색하도록 구성될 수 있다. 제어기 모듈 102는 이미지 갤러리 212에 표시되는 각각의 이미지와 관련된 의미 메타데이터가 입력 이미지 데이터의 의미 메타데이터와 일치하는 지를 검출하도록 구성될 수 있다. 또한, 제어기 모듈 102는 입력 이미지 데이터의 의미 메타데이터와 일치하는 이미지들을 검색하도록 구성될 수 있다. 또한, 검색된 이미지들은 모바일 장치의 사용자 인터페이스 106에 표시된다.

또한, 사용자가 모바일 장치를 이용하여 이미지를 캡처(capture)할 경우, 제어기 모듈 102는 이미지에 포함되는 객체들 각각에 대응하는 의미 정보를 계산하고, 캡처된 이미지와 함께 의미 정보가 저장되도록 제어한다.

또한, 질의(query) 이미지의 의미 분할 후 획득되는 메타데이터는 사용자에 의해 그려지는 획에 의해 특정되는 영역을 이해하기 위하여 사용될 수 있다. 예를 들어, 이미지가 전자 장치 100에 입력될 경우, 이미지는 의미 분할 엔진(semantic segmentation engine)을 통해 이미지에 포함된 객체들이 영역별로 분리되어 식별되도록 처리될 수 있다. 또한, 이미지에 포함되는 객체들 중 적어도 하나에 대응하는 의미 정보는, 저장된 다른 이미지들의 메타 의미 정보와 매칭(matching)하기 위해 사용자 조작에 따라 사용자 인터페이스 106에 그려지는 획들에 기초하여 이미지로부터 추출될 수 있다.

도 3a는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 기준 이미지에 획들로 사용자에 의해 지시될 때 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 방법을 도시하는 흐름도이다. 도 3a는 전자 장치 100의 동작 방법을 예시한다.

도 3a를 참고하면, 전자 장치 100은, 301단계에서, 전자 장치 100은 기준 이미지를 표시한다. 기준 이미지는 전자 장치 100의 이미지 갤러리로부터 선택될 수 있다. 예를 들어, 이미지 갤러리는 도 3b의 (a)와 같이 전자 장치 100의 사용자 인터페이스 106에 표시될 수 있고, 기준 이미지는 전자 장치 100의 사용자 인터페이스 106에 도 3b의 (b)와 같이 표시될 수 있다. 기준 이미지는 입력 이미지라 지칭될 수 있다. 이미지 갤러리는, 이미지 데이터 베이스를 사용자에게 표시하는 어플리케이션(application)으로서 다수의 이미지들을 표시할 수 있다.

전자 장치 100은 303단계로 진행하여 사용자에 의해 선택된 기준 이미지에서 사용자에 의해 입력된 획들에 기초하여 의미 정보를 결정한다. 기준 이미지에 사용자에 의해 획들로서 표시된 의미 정보는 의미 메타데이터 205에 포함된다. 즉, 전자 장치 100은 사용자에 의해 입력되는 적어도 하나의 획을 식별하고, 상기 적어도 하나의 획에 의해 지정되는 영역 내 픽셀들로부터 의미 정보를 추출할 수 있다. 여기서, 사용자의 입력은 적어도 하나의 터치 입력(예: 탭(tap), 프레스(press), 드래그(drag) 등)을 포함할 수 있다. 예를 들어, 사용자에 의해 입력되는 적어도 하나의 획은 도 3b의 (c)와 같이 전자 장치 100의 사용자 인터페이스 106에 표시된다. 또한, 의미 정보가 결정되는 영역은 사용자에 의해 표시되는 획이 시작되는 부분부터 획이 끝나는 부분까지의 영역을 포함하고, 의미 정보는 기준 이미지에 포함된 객체 및 기준 이미지 내에서 객체에 의해 점유되는 위치와 관련된다.

전자 장치 100은 305단계로 진행하여 의미 정보에 대응되는 이미지가 검색되는지 판단한다. 즉, 전자 장치 100은 기준 이미지로부터 추출된 의미 정보에 대응하는 다른 적어도 하나의 이미지를 데이터 베이스에서 검색한다. 그리고, 전자 장치 100은 적어도 하나의 이미지가 검색되었는지, 다시 말해, 의미 정보에 대응되는 적어도 하나의 이미지가 존재하는지 판단한다. 만일, 의미 정보에 대응되는 적어도 하나의 이미지가 존재하지 아니하는 경우, 전자 장치 100은 본 절차를 종료할 수 있다. 또는, 다른 실시 예에 따라, 의미 정보에 대응되는 이미지 갤러리에 표시 가능한 이미지가 존재하지 않을 경우, 전자 장치 100은 사용자 인터페이스 106을 통해 검색될 이미지가 존재하지 아니함을 안내하는 안내 메시지를 표시할 수 있다.

반면, 이미지 갤러리에 표시 가능한 의미 정보에 대응되는 이미지가 존재하는 경우, 전자 장치 100은 307단계로 진행하여 사용자 인터페이스 106에 검색된 이미지를 표시한다. 예를 들어, 의미 정보에 대응되는 이미지가 존재하는 경우는 저장된 다수의 이미지들 중 객체에 의해 점유되는 영역의 위치에 객체를 포함하는 적어도 하나의 이미지가 존재하는 것을 나타낸다. 이때, 전자 장치 100은 기준 이미지와 검색된 적어도 하나의 이미지를 함께 표시할 수 있다. 예를 들어, 도 2와 같이, 검색된 적어도 하나의 이미지가 기준 이미지보다 작은 크기로, 화면의 하단에 지시될 수 있다. 예를 들어, 전자 장치 100은 기준 이미지와 검색된 적어도 하나의 이미지를 도 3b의 (d)와 같이 전자 장치 100의 사용자 인터페이스 106에 표시 할 수 있다.

도 4는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터가 기준 이미지에 명명법으로 사용자에 의해 지시될 때 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 예시적 시나리오를 도시한다. 도 4에 도시된 바와 같이, 전자 장치 100은 모바일 장치일 수 있다. 이미지 데이터 베이스는 모바일 장치에 설치된 이미지 갤러리 412에 표시되거나, 표시될 수 있는 복수의 이미지일 수 있다.

도 4를 참고하면, 사용자는 이미지 갤러리 412로부터 기준 이미지를 선택할 수 있다. 제어기 모듈 102는 사용자가 입력 이미지 데이터를 제공할 수 있도록 구성될 수 있다. 또한, 제어기 모듈 102는 사용자에 의해 제공되는 입력 이미지 데이터를 수신하도록 구성될 수 있다. 입력 이미지 데이터는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 포함할 수 있다. 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 기준 이미지에 명명법으로 사용자에 의해 지시되는 의미 정보일 수 있다. 예를 들어, 객체 데이터는 '말 + 여자'를 포함할 수 있다. 객체 데이터 '말 + 여자'와 관련된 위치 데이터는 '이미지의 오른쪽 절반에 말 + 여자 존재'와 같은 위치 매개변수들을 포함할 수 있다. 또한, 위치 매개변수들은 기준 이미지의 픽셀들이 그래픽 형식으로 표현된다면, 객체 데이터의 위치 좌표를 포함할 수 있다.

또한, 객체 데이터는 기준 이미지에 획들로 사용자에 의해 지시될 수 있다. 또한, 객체 데이터는 객체의 명칭들로 기준 이미지에 사용자에 의해 지시되는 '언덕' 414 및 '물' 416을 포함할 수 있다. 객체 데이터 '언덕'과 관련된 위치 데이터는 '기준 이미지의 오른쪽 상단에 존재 및 '말 + 여자' 위'로서 추론될 수 있다. 또한, 객체 데이터의 위치 데이터 또는 장소는 객체의 경계 지어진 폐곡선(bounding contour)을 나타내는 범위로부터 식별될 수 있다.

또한, 의미 정보는 입력 이미지 데이터의 의미 메타데이터를 나타낼 수 있고, 기준 이미지에 포함된 객체 및 기준 이미지 내에서 객체에 의해 점유되는 위치와 관련된다. 모바일 장치에 설치된 이미지 갤러리 412는 복수의 이미지들을 표시한다. 복수의 이미지 각각은 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 관련된다. 따라서, 이미지 갤러리 412에 표시되는 각각의 이미지는 의미 메타데이터와 함께 저장되거나, 해당 이미지에 대응하는 의미 메타데이터가 액세스될 수 있도록 의미 메타데이터와 링크될 수 있다.

또한, 제어기 모듈 102는 입력 이미지 데이터의 의미 메타데이터와 일치하는 이미지들 418을 검색하도록 구성될 수 있다. 제어기 모듈 102는 이미지 갤러리 412에 표시 가능한 각각의 이미지와 관련된 의미 메타데이터가 입력 이미지 데이터의 의미 메타데이터와 일치하는 지를 검출하도록 구성될 수 있다. 또한, 제어기 모듈 102는 입력 이미지 데이터의 의미 메타데이터와 일치하는 이미지들을 검색하도록 구성될 수 있다. 또한, 검색된 이미지들 418은 전자 장치 100의 사용자 인터페이스 106에 표시된다.

도 5a는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 기준 이미지에 명명법으로 사용자에 의해 지시될 때 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 방법을 도시하는 흐름도이다. 도 5a는 전자 장치 100의 동작 방법을 예시한다.

도 5a을 참고하면, 전자 장치 100은 501단계에서, 사용자가 전자 장치 100의 기준 이미지를 선택함을 인지함으로써 기준 이미지를 표시한다. 기준 이미지는 전자 장치 100의 이미지 갤러리로부터 선택될 수 있다. 예를 들어, 전자 장치 100은 기준 이미지를 도 5b의 (a)와 같이 사용자 인터페이스 106에 표시할 수 있다. 기준 이미지는 입력 이미지라 지칭될 수 있다. 이미지 갤러리는, 이미지 데이터 베이스를 사용자에게 표시하는 어플리케이션으로서 다수의 이미지들을 표시할 수 있다.

전자 장치 100은 503단계로 진행하여 사용자에 의해 선택된 기준 이미지에서 사용자에 의해 입력된 적어도 하나의 명칭에 기초하여 의미 정보를 결정한다. 의미 정보는 의미 메타데이터 205에 포함된다. 이때, 의미 정보는 적어도 하나의 명칭 및 각 명칭이 입력된 위치에 의해 결정될 수 있다. 여기서, 위치는 사용자에 의해 입력된 명칭을 둘러싼 폐곡선에 의해 특정될 수 있다. 예를 들어, 사용자에 의해 선택된 기준 이미지에서 사용자에 의해 입력된 적어도 하나의 명칭은 전자장치 100의 사용자 인터페이스 106에 표시된 기준 이미지에서 도 5b의 (b)와 같이 말을 탄 사람의 우 상 측에서 폐곡선에 둘러싸여 “Hill”로 표시 되거나 말은 탄 사람의 좌 하측에서 폐곡선에 둘러싸여 “Water”로 표시 되어질 수 있다. 또한, 적어도 하나의 명칭은 “Fire”, “ House”, “Rock”, 등과 같은 일반 명사들로 사용자에 의해 변경 되어질 수 있으며, 폐곡선의 위치는 사용자의 표시에 따라 변경되어 질 수 있다.

전자 장치 100은 505단계로 진행하여 의미 정보에 대응되는 이미지가 검색되는지 판단한다. 즉, 전자 장치 100은 기준 이미지로부터 추출된 의미 정보에 대응하는 다른 적어도 하나의 이미지를 검색한다. 이어서, 전자 장치 100은 적어도 하나의 이미지가 검색되었는지, 다시 말해, 의미 정보에 대응되는 적어도 하나의 이미지가 존재하는지 판단한다. 만일, 의미 정보에 대응되는 이미지 갤러리에 표시 가능한 적어도 하나의 이미지가 존재하지 아니하는 경우, 전자 장치 100은 본 절차를 종료할 수 있다. 또는, 다른 실시 예에 따라, 의미 정보에 대응되는 이미지가 존재하지 않을 경우, 전자 장치 100은 사용자 인터페이스 106을 통해 검색되는 이미지가 존재하지 아니함을 안내하는 안내 메시지를 표시할 수 있다.

반면, 의미 정보에 대응되는 이미지가 존재하는 경우, 전자 장치 100은 507단계로 진행하여 사용자 인터페이스 106에 검색된 이미지를 표시한다. 이때, 전자 장치 100는 기준 이미지와 검색된 적어도 하나의 이미지를 함께 표시할 수 있다. 예를 들어, 도 4와 같이, 검색된 적어도 하나의 이미지가 나타내 질 수도 있다. 예를 들어, 전자 장치 100은 검색된 이미지를 도 5b의 (c)와 같이 전자 장치 100의 사용자 인터페이스 106에 표시할 수 있다.

도 6은 본 명세서에 기술된 바와 같은 실시 예들에 따라, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터가 전자 장치 100의 사용자 인터페이스 106에 사용자의 의해 그려질 때 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 예시적 시나리오를 도시한다. 도 6에 도시된 바와 같이, 전자 장치 100은 모바일 장치일 수 있다. 이미지 데이터 베이스는 모바일 장치에 설치된 이미지 갤러리 612를 통하여 표시될 수 있다.

도 6을 참고하면, 제어기 모듈 102는 사용자가 입력 이미지 데이터를 제공할 수 있도록 구성될 수 있다. 또한, 제어기 모듈 102는 사용자에 의해 제공되는 입력 이미지 데이터를 수신하도록 구성될 수 있다. 입력 이미지 데이터는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 포함할 수 있다. 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 모바일 장치의 사용자 인터페이스 106에 사용자에 의해 그려지는 의미 정보일 수 있다. 예를 들어, 사용자 인터페이스 106은 모바일 장치에 의해 제공되는 드로잉 캔버스(drawing canvas)일 수 있다. 사용자는 드로잉 캔버스에 의미 정보를 지시하거나 그릴 수 있다. 도 6에 도시된 바와 같이, 객체 데이터는 '건물', '물', 및 '나'를 포함할 수 있다. 객체 데이터에 대응하는 위치 데이터는 객체의 경계 지어진 폐곡선(bounding contour)들 614, 616, 618의 범위로부터 지정될 수 있다. 예를 들어, 객체 '건물', '물', 및 '나'의 경계 지어진 폐곡선은 '건물'은 이미지의 위쪽 절반에 있고, '물'은 이미지의 아래쪽 절반에 있고, '나'는 이미지의 오른쪽 절반에 있다고 지정한다.

또한, 의미 정보는 입력 이미지 데이터의 의미 메타데이터를 나타낼 수도 있고, 기준 이미지에 포함된 객체 및 기준 이미지 내에서 객체에 의해 점유되는 위치와 관련된다. 모바일 장치에 설치된 이미지 갤러리 612는 복수의 이미지들을 표시한다. 복수의 이미지들 각각은 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 관련된다. 따라서, 각각의 이미지는 의미 메타데이터와 함께 저장되거나 해당 이미지에 대응하는 의미 메타데이터를 포함하여 저장될 수 있다.

또한, 제어기 모듈 102는 입력 이미지 데이터의 의미 메타데이터와 일치하는 이미지들 620을 검색하도록 구성될 수 있다. 제어기 모듈 102는 이미지 갤러리 612에 표시되는 각각의 이미지와 관련된 의미 메타데이터가 입력 이미지 데이터의 의미 메타데이터와 일치하는 지를 검출하도록 구성될 수 있다. 또한, 제어기 모듈 102는 입력 이미지 데이터의 의미 메타데이터와 일치하는 이미지들을 검색하도록 구성될 수 있다. 또한, 검색된 이미지들 620은 모바일 장치의 사용자 인터페이스 106에 표시될 수 있다.

또한, 이미지 갤러리 612에 표시된 이미지들과 함께 저장된 메타데이터는 질의(query) 이미지와 매칭되기 위해 사용된다. 예를 들어 질의 이미지는, 사용자 인터페이스 106의 캔버스 또는 빈 화면에서 사용자에 의해 입력되는 텍스트(text)를 제어기 모듈 102에 의해 식별함으로써 생성될 수 있다.

도 7a는 본 명세서에서 기술된 바와 같은 실시 예들에 따라, 위치 데이터가 전자 장치의 사용자 인터페이스에 사용자의 의해 그려질 때 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 방법을 도시하는 흐름도이다. 도 7a는 전자 장치 100의 동작 방법을 예시한다.

도 7a를 참고하면, 전자 장치 100은, 701단계에서, 사용자에 의해 입력되는 적어도 하나의 명칭 및 적어도 하나의 영역 지정을 확인한다. 적어도 하나의 명칭 및 적어도 하나의 영역 지정은 드로잉 캔버스에 사용자에 의해 입력될 수 있다. 예를 들어, 명칭은 사용자에 의해 문자가 드로잉 캔버스에 쓰여짐으로써 입력될 수 있으며, 영역 지정은 사용자에 의해 드로잉 캔버스에 폐곡선이 그려짐으로써 입력될 수 있다. 예를 들어, 사용자에 의해 쓰여진 문자 및 그려진 폐곡선은 도 7b의 (a)와 같이 전자 장치 100의 사용자 인터페이스 106에 표시될 수 있다.

전자 장치 100은 703단계로 진행하여 적어도 하나의 명칭 및 적어도 하나의 영역 지정에 기초하여 의미 정보를 결정한다. 의미 정보는 의미 메타데이터 205에 포함된다. 즉, 전자 장치 100은 사용자에 의해 입력되는 적어도 하나의 명칭 및 적어도 하나의 영역 지정을 식별하고, 적어도 하나의 명칭 및 적어도 하나의 영역 지정으로부터 의미 정보를 추출할 수 있다.

전자 장치 100은 705단계로 진행하여 의미 정보에 대응되는 이미지가 검색되는지 판단한다. 즉, 전자 장치 100은 기준 이미지로부터 추출된 의미 정보에 대응하는 다른 적어도 하나의 이미지를 표시하고, 전자 장치 100은 적어도 하나의 이미지가 검색되었는지, 다시 말해, 의미 정보에 대응되는 적어도 하나의 이미지가 존재하는지 판단한다. 만일, 의미 정보에 대응되는 적어도 하나의 이미지가 존재하지 아니하는 경우, 전자 장치 100은 본 절차를 종료할 수 있다. 또는, 다른 실시 예에 따라, 의미 정보에 대응되는 이미지가 존재하지 않을 경우, 전자 장치 100은 사용자 인터페이스 106을 통해 검색될 이미지가 존재하지 아니함을 안내하는 안내 메시지를 표시할 수 있다.

반면, 의미 정보에 대응되는 이미지가 존재하는 경우, 전자 장치 100은 707단계로 진행하여 사용자 인터페이스 106에 검색된 이미지를 표시한다. 이때, 전자 장치 100은 기준 이미지와 검색된 적어도 하나의 이미지를 함께 표시할 수 있다. 예를 들어, 도 6과 같이, 검색된 적어도 하나의 이미지가 표시될 수 있다. 예를 들어, 전자 장치 100은 검색된 이미지들을 도 7b의 (b)와 같이 전자 장치 100의 사용자 인터페이스 106에 표시할 수 있다.

도 8은 본 명세서에 기술된 바와 같은 실시 예들에 따라, 비디오 데이터 베이스로부터 적어도 하나의 비디오를 검색하는 일 예를 도시한다. 도 8에 도시된 바와 같이, 전자 장치 100은 모바일 장치일 수 있다. 비디오 데이터 베이스는 모바일 장치에 설치된 비디오 갤러리 812를 통하여 표시되는 비디오들 일 수 있다.

제어기 모듈 102는 사용자가 입력 비디오 데이터를 제공할 수 있도록 구성될 수 있다. 또한, 제어기 모듈 102는 사용자에 의해 제공되는 입력 비디오 데이터를 수신하도록 구성될 수 있다. 입력 비디오 데이터는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 포함할 수 있다. 또한, 객체 데이터는 동작(action) 데이터를 포함할 수 있다. 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 모바일 장치의 사용자 인터페이스 106에 사용자에 의해 그려지는 의미 정보일 수 있다. 예를 들어, 사용자 인터페이스 106은 모바일 장치에 의해 제공되는 질의(query) 캔버스일 수 있다. 사용자는 드로잉 캔버스에 의미 정보를 지시하거나 그릴 수 있다.

도 8에 도시된 바와 같이, 객체 데이터는 '기차'를 포함할 수 있다. 동작 데이터는 '싸움'을 포함할 수 있다. 객체 데이터에 대응하는 위치 데이터는 객체의 경계 지어진 폐곡선의 범위로부터 식별될 수 있다. 예를 들어, 객체 '기차' 및 동작 '싸움'의 경계 지어진 폐곡선들 814, 816은 비디오가 기차 위에서 발생하는 싸움 시퀀스를 포함할 수 있도록 지정된다.

또한, 의미 정보는 입력 비디오 데이터의 의미 메타데이터를 지시할 수 있다. 모바일 장치에 설치된 비디오 갤러리 812는 복수의 비디오들을 표시할 수 있다. 복수의 비디오의 각각은 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 관련된다. 따라서, 각각의 비디오는 의미 메타데이터와 함께 저장된다.

또한, 제어기 모듈 102는 입력 비디오 데이터의 의미 메타데이터와 일치하는 비디오들 818을 검색하도록 구성될 수 있다. 제어기 모듈 102는 비디오 갤러리 812의 각각의 비디오와 관련된 의미 메타데이터가 입력 비디오 데이터의 의미 메타데이터와 일치하는 지를 검출하도록 구성될 수 있다. 또한, 제어기 모듈 102는 입력 비디오 데이터의 의미 메타데이터와 일치하는 비디오들을 검색하도록 구성될 수 있다. 또한, 검색된 비디오들 818은 모바일 장치의 사용자 인터페이스 106에 표시된다.

도 9는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 이미지 데이터 베이스의 각각의 이미지를 관련시키는 예시적 시나리오를 도시한다. 도 9에 도시된 바와 같이, 전자 장치 100은 모바일 장치일 수 있다.

모바일 장치가 사용자에 의해 이미지를 캡처 901할 수 있다. 또한, 제어기 모듈 102는 캡처한 이미지의 의미 정보를 계산하거나 추출하도록 구성될 수 있다. 의미 정보는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 포함할 수 있다. 도 9에 도시된 바와 같이, 캡처한 이미지의 객체 데이터는 '말 + 남자', '말 + 남자', '땅', '하늘', '산', 및 '물'을 포함할 수 있다. 객체 데이터에 대응하는 위치 데이터는 서로에 대해 객체들의 위치(location)로부터 추론 903될 수 있다. 예를 들어, 위치 데이터는 캡처한 이미지의 중앙에서 서로의 옆에 위치하는 '말 + 남자' 및 '말 + 남자'를 포함할 수 있다.

또한, 캡처한 이미지는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 함께 모바일 장치에 저장될 수 있다. 따라서, 캡처한 이미지는 메타데이터로서 의미 정보와 함께 저장된다. 마찬가지로, 모든 이미지들은 메타데이터로서 의미 정보와 함께 저장 905될 수 있다. 모든 이미지들이 메타데이터로서 의미 정보를 사용하여 저장되기 때문에, 이미지 데이터 베이스로부터의 이미지 검색은 기존 검색 메커니즘보다 빠르다. 검색이 더 빠르기 때문에, 질의 이미지와 일치하는 이미지들이 더 빠르게 검색될 수 있다.

일 실시 예에서, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 감시 학습 기법 및 비감시 학습 비법 중 적어도 하나를 기반으로 하여 각각의 이미지로부터 추출된다. 객체 데이터 및 객체 데이터에 대응하는 위치 데이터의 추출은 도 11을 참조하여 나중에 설명된다.

도 10은 본 명세서에 기술된 바와 같은 실시 예들에 따라, 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 방법 1000을 도시하는 흐름도이다. 단계 1001에서, 방법 1000은 입력 이미지 데이터를 전자 장치 100에서 수신하는 단계를 포함한다. 입력 이미지 데이터는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 포함한다. 일 실시 예에서, 방법 1000은 제어기 모듈 102가 입력 이미지 데이터를 수신할 수 있도록 한다.

일 실시 예에서, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 기준 이미지에서 사용자에 의해 획들로 지시된다. 다른 실시 예에서, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 기준 이미지에 명명법으로 사용자에 의해 지시된다. 다른 실시 예에서, 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 전자 장치 100의 사용자 인터페이스 106에 사용자에 의해 그려진다.

또한, 단계 1003에서, 방법 1000은 객체 데이터 및 객체 데이터에 대응하는 위치 데이터가 이미지 데이터 베이스로부터 적어도 하나의 이미지와 일치하는 지를 확인하는 단계를 포함한다. 객체 데이터 및 객체 데이터에 대응하는 위치 데이터가 전자 장치 100에 저장된 이미지들 중 적어도 하나의 이미지와 일치하면, 단계 1005에서, 방법 1000은 전자 장치 100에 저장된 이미지들 중 해당 이미지를 검색하는 단계를 포함한다. 일 실시 예에서, 방법 1000은 제어기 모듈 102가 전자 장치 100에 저장된 이미지들 중 이미지를 검색할 수 있도록 한다.

또한, 단계 1007에서, 방법 1000은 전자 장치 100의 사용자 인터페이스 106에 검색된 이미지를 표시하는 단계를 포함한다. 일 실시 예에서, 방법 1000은 제어기 모듈 102가 전자 장치 100의 사용자 인터페이스 106에 검색된 이미지를 표시할 수 있도록 한다.

이미지 데이터 베이스는 복수의 이미지를 포함한다. 복수의 이미지의 각각의 이미지는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터와 관련된다. 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 감시 학습 기법 및 비감시 학습 기법 중 적어도 하나를 기반으로 하여 각각의 이미지로부터 추출된다.

방법 1000에서 다양한 작업(action), 행동(act), 블록, 단계 등은 제시된 순서로, 상이한 순서로 또는 동시에 수행될 수 있다. 또한, 일부 실시 예에서, 일부 작업, 행동, 블록, 단계 등은 발명의 범위를 벗어나지 않고 생략, 추가, 수정 및 스킵될 수 있다.

도 11은 본 명세서에 기술된 바와 같은 실시 예들에 따라, 각각의 이미지와 관련된 객체 데이터 및 객체 데이터에 대응하는 위치 데이터를 추출하는 방법 1100을 도시하는 흐름도이다. 각각의 이미지와 관련되는 객체 데이터 및 객체 데이터에 대응하는 위치 데이터는 이미지의 의미 정보를 지시할 수 있다. 또한, 이미지로부터의 의미 정보의 추출은 의미적 이미지 분할이라 지칭될 수 있다.

의미적 이미지 분할은 의미 있는 부류(class)들로 이미지를 분할하기 위한 것이다. 야외 촬영 이미지를 3개의 부류, 즉 땅, 수직선(건물), 하늘로 분할하는 것이 더 의미가 있을 수 있고, 자동 3D 사진 생성, 자동 사진 팝업, 영역 단위(region wise) 자동 이미지 향상 등과 같은 다양한 어플리케이션들에서 사용될 수 있다.

의미적 이미지 분할은 가우시안 경계 포텐셜(gaussian edge potential)을 이용한 완전 연결된(fully connected) 조건부 임의 영역들(conditional random fields, CRFs)에서의 효율적인 추론(efficient inference)을 통해 구현될 수 있다. 처음에, 감시 학습 알고리즘은 이미지들의 지상 실측 정보(ground truth) 및 다양한 이미지들을 사용하여 랜덤 포레스트(random forest)를 훈련시킨다. 랜덤 포레스트는, 결정 트리(decision tree)의 확장된 개념으로서, 하나의 데이터 집합에서 복원 샘플링을 통해 다수의 훈련용 데이터를 생성하고, 반복적 학습들을 통해 다수의 트리들을 생성한 후, 다수의 트리들을 결합함으로써 최종적인 목표 변수를 예측하게 하는 자료 모형이다. 테스트하는 동안, 이미지들은 특정 부류 픽셀에 속하는 픽셀의 확률을 달성하기 위해 랜덤 포레스트에 제공된다. 또한, 이미지의 이미지 및 픽셀 단위(pixel wise) 확률들은 모든 픽셀 쌍에 대해 쌍별 포텐셜(pair-wise potential)을 확립하는 조밀하게 연결된 조건부 임의 영역을 사용하여 최종 부류 라벨을 평가하기 위해 사용된다.

의미적 이미지 분할을 위한 비감시 학습 기법은 그래프 분할 방법 또는 그래프 분할 알고리즘일 수 있다. 그래프 분할 알고리즘은 각각의 픽셀을 그래프의 노드로 정의하고, 간선(edge)은 인접하는 픽셀들 간의 비유사성으로 정의된다. 그래프는 동일한 구성 요소들의 간선들이 적은 가중치(유사성)를 갖고, 상이한 구성 요소들 간의 간선들이 높은 가중치(비유사성)을 갖도록 상이한 연결 요소(connected components)들로 분할(cut off)된다.

방법 1100은 감시 의미 분할에서의 정확성이 랜덤 포레스트의 예측 정확성에 의해 제한된다는 사실을 기반으로 구현된다. 따라서, 조건부 임의 영역 모델에 제공되는 분할된 이미지들의 정확성을 향상시키기 위해, 랜덤 포레스트 예측은 비감시 이미지 분할과 결합 되어진다.

또한, 과분할된(over-segmented) 이미지에서, 특정 패치(patch) 또는 수퍼 픽셀(비감시 방법으로부터의 분할)로부터의 픽셀들은 상이한 부류에 속할 수 있다. 따라서, 제어기 모듈 102는 랜덤 포레스트 분할(감시 이미지 분할)을 적용하여 분할된 이미지에 그래프 기반 비감시 이미지 분할을 적용하도록 구성될 수 있다. 또한, 그래프 기반 비감시 이미지 분할 시, 모든 픽셀들이 랜덤 포레스트 분할에서 동일한 라벨을 할당하는 수퍼 픽셀은 수정되지 않는다. 픽셀들이 다양한 라벨에 분산되어 있는 수퍼 픽셀들은 픽셀들 각각에 대한 포텐셜이 픽셀들의 대부분의 라벨에 따라 갱신된다. 따라서, 감시 이미지 분할의 출력에 비감시 이미지 분할을 적용하는 제안된 방법은 랜덤 포레스트 예측으로부터 발생하는 부류들의 경계에서 잠재적인 모든 오류를 극복한다. 따라서, 의미적 이미지 분할의 정확성은 증가한다.

도 11을 참조하면, 단계 1101에서, 방법 1100은 입력 이미지를 전자 장치 100에서 수신하는 단계를 포함한다. 단계 1103에서, 방법 1100은 오프라인 트레이닝된 랜덤 포레스트 분류자(classifier)를 사용하여 의미 정보를 추출하는 단계를 포함한다(감시 학습 기법). 일 실시 예에서, 방법 1100은 제어기 모듈 102가 오프라인 훈련된 랜덤 포레스트 분류자를 사용하여 의미 정보를 추출할 수 있도록 한다.

단계 1105에서, 방법 1100은 그래프 기반 분할(비감시 학습 기법)을 사용하여 의미 정보를 추출하는 단계를 포함한다. 일 실시 예에서, 방법 1100은 제어기 모듈 102가 그래프 기반 분할을 사용하여 의미 정보를 추출할 수 있도록 한다. 단계 1107에서, 방법 1100은 정확하게 분할된 출력 이미지를 제공하기 위해 그래프 기반 분할 및 랜덤 포레스트 분류자의 분할된 출력 이미지에 조건부 임의 영역을 적용하는 단계를 포함한다.

방법 1100에서 다양한 작업(action), 행동(act), 블록, 단계 등은 제시되는 순서로서, 상이한 순서로서, 또는 동시에 수행될 수 있다. 또한, 일부 실시 예에서, 일부 작업, 행동, 블록, 단계 등은 발명의 범위에서 벗어나지 않고 생략, 추가, 수정, 및 스킵될 수 있다. 본 발명의 실시 예에 따른 이미지 분할의 결과들이 도 12a, 도 12b, 도 12c이 예시된다.

도 12a는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 감시 학습 기법 및 비감시 학습 기법을 사용하여 획득되는 분할된 이미지의 일 예를 도시한다. 도 12b는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 감시 학습 기법 및 비감시 학습 기법을 사용하여 획득되는 분할된 이미지의 다른 예를 도시한다. 도 12c는 본 명세서에 기술된 바와 같은 실시 예들에 따라, 감시 학습 기법 및 비감시 학습 기법을 사용하여 획득되는 분할된 이미지의 다른 예들을 도시한다.

도 12a, 도 12b, 및 도 12c에서, 왼쪽 상단 모서리의 (a)는 입력 이미지를 도시한다. 오른쪽 상단 모서리의 (b) 지상 실측 정보를 도시한다. 왼쪽 하단 모서리의 (c)는 기존 이미지 분할 방법들을 사용하여 획득된 조건부 임의 영역 출력을 도시한다. 오른쪽 하단 모서리의 (d) 제안된 이미지 분할 방법을 사용하여 획득된 조건부 임의 영역 출력을 도시한다.

도 12a, 도 12b, 및 도 12c에 도시된 바와 같이, 제안된 이미지 분할 방법을 사용하여 획득된 조건부 임의 영역 출력은 기존 이미지 분할 방법들을 사용하여 획득된 조건부 임의 영역 출력보다 정확하다. 지상 실측 정보와 제안된 이미지 분할 방법을 사용하여 획득된 조건부 임의 영역 출력의 유사도(degree of similarity)는 지상 실측 정보와 기존 이미지 분할 방법들을 사용하여 획득된 조건부 임의 영역 출력의 유사도 이상이다.

도 13을 참조하면, 이미지 데이터 베이스로부터 적어도 하나의 이미지를 검색하는 방법을 구현하는 컴퓨팅 환경 1302이 도시된다. 도시된 바와 같이, 컴퓨팅 환경 1302은 제어부 1308과 산술 논리 계산부(arithmetical and logical unit) 1306가 장착된 적어도 하나의 처리부 1304, 메모리 1314, 저장부 1316, 복수의 네트워킹 장치 1310 및 복수의 입출력 장치 1312를 포함한다. 처리부 1304는 알고리즘의 명령들을 처리하는 역할을 한다. 처리부 1304는 그 처리를 수행하기 위해 제어부 1308으로부터 명령들을 수신한다. 또한, 명령들의 실행에 수반되는 모든 논리 및 산술 연산들은 산술 논리 계산부 1306의 도움으로 계산된다.

전체 컴퓨팅 환경 1302은 복수의 동종 또는 이종의 코어, 상이한 종류의 복수의 CPU, 특수 미디어 및 다른 가속 장치로 구성될 수 있다. 처리부 1304는 알고리즘의 명령들을 처리하는 역할을 한다. 또한, 복수의 처리부 1304는 단일 칩 상에 또는 복수의 칩 위에 위치할 수 있다.

구현을 위해 필요한 코드 및 명령들을 포함하는 알고리즘은 메모리 1314 및 저장부 1316 중 어느 하나에 저장되거나 메모리 1314 및 저장부 1316 모두에 저장된다. 알고리즘이 실행될 때, 명령들은 해당 메모리 1314 또는 저장부 1316로부터 불러올 수 있고, 처리부 1304에 의해 실행될 수 있다.

모든 하드웨어 구현의 경우, 다양한 네트워킹 장치들 1310 또는 외부 입출력 장치들 1312가 네트워킹부 및 입출력 장치 유닛을 통한 구현을 지원하기 위해 컴퓨팅 환경에 연결될 수 있다.

본 명세서에 개시된 실시 예들은 요소들을 제어하기 위해 네트워크 관리 기능들을 수행하고, 적어도 하나의 하드웨어 장치상에서 실행되는 적어도 하나의 소프트웨어 프로그램을 통해 구현될 수 있다. 도 1 내지 도 13은 하드웨어 장치 또는 하드웨어 장치와 소프트웨어 모듈의 조합 중 적어도 하나일 수 있는 블록들을 포함한다.

특정 실시 예들에 대한 설명은 다른 사람들이 일반적인 범위에서 벗어나지 않고, 이러한 특정 실시 예들은 다양한 어플리케이션들을 위해, 현재의 지식을 적용함으로써, 쉽게 수정되거나 조정될 수 있도록 본 명세서에 기재된 실시 예들의 일반적인 특성을 충분히 나타낼 것이다. 따라서, 이러한 조정 예 및 수정 예들은 개시된 실시 예들의 등가물의 의미 및 범위 내에서 해석되도록 의도되어야 한다. 본 명세서에서 사용된 자구(phraseology) 및 용어는 한정을 위한 것이 아니고 설명을 위한 것이라는 것으로 이해되어야 할 것이다. 따라서, 본 명세서에 기재된 실시 예들은 바람직한 실시 예들의 측면에서 설명되었지만, 당업자들은 본 명세서에 기재된 실시 예들이 본 명세서에 기술된 바와 같은 실시 예들의 취지 및 범위 내에서 수정하여 실시할 수도 있음을 인지해야 할 것이다.

Claims

전자 장치의 동작 방법에 있어서,
이미지에 포함된 객체 및 상기 이미지 내에서 상기 객체에 의해 점유되는 영역의 위치를 결정하는 과정과;
저장된 다수의 이미지들 중 상기 위치에 상기 객체를 포함하는 적어도 하나의 이미지를 검색하는 과정을 포함하는 방법.
청구항 1에 있어서,
상기 객체 및 상기 위치는, 표시된 이미지에서 사용자에 의해 입력된 적어도 하나의 획(stroke)에 기초하여 결정되는 방법.
청구항 1에 있어서,
상기 객체는, 사용자에 의해 입력되는 명칭에 의해 결정되는 방법.
청구항 1에 있어서,
상기 위치는, 사용자에 의해 입력되는 적어도 하나의 폐곡선(contour)에 의해 결정되는 방법.
청구항 1에 있어서,
상기 검색된 적어도 하나의 이미지를 표시하는 과정을 더 포함하는 방법.
청구항 1에 있어서,
상기 다수의 이미지들의 각각은, 이미지에 포함된 적어도 하나의 객체에 대한 정보 및 상기 적어도 하나의 객체의 위치에 대한 정보와 관련되는 방법.
청구항 6에 있어서,
상기 객체 및 상기 위치는, 해당 이미지의 의미 정보를 지시하는 방법.
청구항 6에 있어서,
상기 객체 및 상기 위치는, 해당 이미지의 감시 분할 기법 및 비감시 분할 기법의 조합을 통해 해당 이미지로부터 추출되는 방법.
전자 장치에 있어서,
이미지에 포함된 객체 및 상기 이미지 내에서 객체에 의해 점유되는 영역의 위치를 결정하고, 저장된 다수의 이미지들 중 상기 위치에 상기 객체를 포함하는 적어도 하나의 이미지를 검색하는 제어기 모듈을 포함하는 전자 장치.
청구항 9에 있어서,
상기 객체 및 상기 위치는, 표시된 이미지에서 사용자에 의해 입력된 적어도 하나의 획(stroke)에 기초하여 결정되는 전자 장치.
청구항 9에 있어서,
상기 객체는, 사용자에 의해 입력되는 명칭에 의해 결정되는 전자 장치.
청구항 9에 있어서,
상기 위치는, 사용자에 의해 입력되는 적어도 하나의 폐곡선(contour)에 의해 결정되는 전자 장치.
청구항 9에 있어서,
상기 검색된 적어도 하나의 이미지를 표시하는 사용자 인터페이스를 더 포함하는 전자 장치.
청구항 9에 있어서,
상기 다수의 이미지들의 각각은, 이미지에 포함된 적어도 하나의 객체에 대한 정보 및 상기 적어도 하나의 객체의 위치에 대한 정보와 관련되는 전자 장치.
청구항 9에 있어서,
상기 객체 및 상기 위치는, 해당 이미지의 의미 정보를 지시하는 전자 장치.
청구항 9에 있어서,
상기 객체 및 상기 위치는, 해당 이미지의 감시 분할 기법 및 비감시 분할 기법의 조합을 통해 해당 이미지로부터 추출되는 전자 장치.