KR20140045897A

KR20140045897A - 시각적 이미지 매칭을 기반으로 한 미디어 스트림 식별 장치 및 방법

Info

Publication number: KR20140045897A
Application number: KR1020130120196A
Authority: KR
Inventors: 야체크 마르시니아크; 애덤 스트럽처브스키; 아밋 포랫; 츠비 차임 레브; 아론 리버; 단 시론
Original assignee: 삼성전자주식회사
Priority date: 2012-10-09
Filing date: 2013-10-08
Publication date: 2014-04-17
Also published as: US20140099028A1; US8805123B2; KR102087882B1

Abstract

본 발명은 미디어 스트림을 식별하기 위한 장치 및 방법에 관한 것이다.
다양한 실시 예에 따른 방법은 식별하고자 하는 미디어 스트림에서 하나 이상의 프레임을 캡쳐하는 과정과, 상기 캡쳐된 하나 이상의 프레임 중 선택된 프레임을 포함하는 질의 메시지를 생성하는 과정과, 상기 생성된 질의 메시지를 하나 이상의 서버로 송신하는 과정과, 상기 하나 이상의 서버로부터 상기 선택된 프레임에 대한 분석된 결과를 포함하는 응답 메시지를 수신하는 과정과, 상기 하나 이상의 서버로부터 수신된 결과를 집계하여 출력하는 과정을 포함한다. 또한 다른 실시 예들이 가능하다.

Description

시각적 이미지 매칭을 기반으로 한 미디어 스트림 식별 장치 및 방법{DEVICE AND METHOD FOR MEDIA STREAM RECOGNITION BASED ON VISUAL IMAGE MATCHING}

본 발명은 이미지 표시부 상에 표시되고 있는 비디오 영화와 같은 미디어 스트림을 식별하기 위한 장치 및 방법에 관한 것이다.

일반적으로 미디어 스트림을 올바르게 식별하는 것은 뷰어의 경험을 실질적으로 향상시킬 수 있다. 특히, 이러한 식별은 예를 들어, 영화가 TV 셋 상에서 시청되고 있는 경우 TV 셋 또는 모바일 폰 상의 영화에 대한 메타데이터를 뷰어가 획득할 수 있게 할 수 있다. 이때, 영화에 대한 메타데이터는 예를 들어, 배우, 감독의 이름, 제작년도 등을 포함할 수 있다.

이와 같은 미디어 스트림 식별을 위한 시스템에서는 사운드트랙 인식을 기반으로 미디어 스트림을 식별한다.

종래에는 사운드트랙 인식을 기반으로 미디어 스트림을 식별하였다.

하지만 사운드트랙을 기반으로 한 미디어 스트림 식별은 주위 잡음에 민감하다. 예를 들어, TV 쇼를 인식하는 것이 요구되는 경우, 방 내의 모든 사람들이 조용해야 한다.

또한, 사운드트랙을 기반으로 한 미디어 스트림 식별은 통상적으로 긴 시간이 걸린다.

뿐만 아니라, 종래에는 표시부로부터의 거리, 왜곡 등과 같은 다양한 환경 조건을 고려하여 빠르고 강인한 미디어 스트림을 식별하는데 어려움이 있었다.

따라서, 본 발명의 다양한 실시 예에서는 미디어 스트림을 식별하기 위한 시스템, 전자 장치 및 방법을 제공한다.

상술한 바를 달성하기 위해 본 발명의 실시 예에 따르면 방법은 미디어 스트림에 대한 이미지를 식별하기 위한 방법에 있어서, 식별하고자 하는 미디어 스트림에서 하나 이상의 프레임을 캡쳐하는 과정과, 상기 캡쳐된 하나 이상의 프레임 중 선택된 프레임을 포함하는 질의 메시지를 생성하는 과정과, 상기 생성된 질의 메시지를 하나 이상의 서버로 송신하는 과정과, 상기 하나 이상의 서버로부터 상기 선택된 프레임에 대한 분석된 결과를 포함하는 응답 메시지를 수신하는 과정과, 상기 하나 이상의 서버로부터 수신된 결과를 집계하여 출력하는 과정을 포함하는 것을 특징으로 한다.

본 발명의 실시 예에 따르면 클라이언트 장치는 메시지를 송수신하는 통신부와, 데이터를 출력하는 표시부와, 식별하고자 하는 미디어 스트림에서 하나 이상의 프레임을 캡쳐하고, 상기 캡쳐된 하나 이상의 프레임 중 선택된 프레임을 포함하는 질의 메시지를 생성하여 상기 생성된 질의 메시지를 상기 통신부를 통해서 하나 이상의 서버로 송신한 후 상기 하나 이상의 서버로부터 상기 선택된 프레임에 대한 분석된 결과를 포함하는 응답 메시지가 수신되면 상기 하나 이상의 서버로부터 수신된 결과를 집계하여 상기 표시부를 통해서 출력하는 프로세서를 포함하는 것을 특징으로 한다.

본 발명의 다양한 실시 예에서는 클라이언트 장치가 식별하고자 하는 미디어로부터 하나 이상의 프레임을 캡쳐하여 선택된 이미지를 포함하는 질의 메시지를 서버로 송신하고, 서버로부터 분석된 이미지들에 대한 결과가 포함된 응답 메시지가 수신되면 이를 집계하여 사용자에게 표시함으로써 재생 시간이 간 영화에 대한 다수의 이미지들을 식별할 수 있다는 이점이 있다.

도 1은 본 발명의 실시 예에 따라 클라이언트 장치 및 서버에 대한 구성을 나타내는 블록도,
도 2는 본 발명의 실시 예에 따라 서버 데이터베이스 스마트 생성 프로세스를 개략적으로 나타내는 흐름도,
도 3a 내지 도 3b는 본 발명의 실시 예에 따라 클라이언트 스마트 캡쳐 및 결과 집계 프로세스를 개략적으로 나타내는 흐름도,
도 4는 본 발명의 실시 예에 따라 미디어 스트림에서 선택된 피쳐(Feature)들을 나타내는 이미지에 대한 예시도,
도 5는 본 발명의 실시 예에 따라 복수의 피쳐 영역에 따라 분할된 이미지를 나타내는 예시도,
도 6은 본 발명의 실시 예에 따라 복수의 피쳐 영역에 피쳐들의 수를 표시한 분할 이미지를 나타내는 예시도,
도 7은 본 발명의 실시 예에 따라 복수의 피쳐 영역을 가지는 다른 이미지를 나타내는 예시도,
도 8은 본 발명의 실시 예에 따라 결과 집계 히스토그램을 나타내는 예시도,
도 9는 본 발명의 실시 예에 따른 유사성 매칭 스테이지를 개략적으로 나타내는 도면.

이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 예시적 실시예들을 상세하게 설명한다. 본 발명이 예시적 실시 예들에 의해 제한되거나 한정되는 것은 아니며 본 발명의 사상 및 기술 범위에 포함되는 모든 변경 또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면에 제시된 동일한 참조부호는 실질적으로 동일한 기능을 수행하는 부재를 나타낸다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 발명의 실시 예에서 장치는 디스플레이를 구비하는 임의의 장치일 수 있으며, 이러한 장치는 모바일 장치, 휴대 장치, 이동 단말, 통신 단말, 휴대용 통신 단말, 휴대용 이동 단말 등일 수 있다.

예를 들어, 장치는 스마트폰, 휴대폰, 게임기, TV, 디스플레이 장치, 차량용 헤드 유닛, 노트북 컴퓨터, 랩탑 컴퓨터, 태블릿(Tablet) 컴퓨터, PMP(Personal Media Player), PDA(Personal Digital Assistants) 등 일 수 있다. 전자 장치는 무선 통신 기능을 갖는 포켓 사이즈의 휴대용 통신 단말로서 구현될 수 있다. 또한, 전자 장치는 플렉서블 디스플레이 장치일 수 있다. 이외에도 이미지 센서 장착이 가능한 장치이면 모두 본 발명이 적용 가능함은 물론이다. 또한 이러한 전자 장치는 가상 공간을 위한 장치도 포함될 수 있다.

이러한 장치의 대표적인 구성은 모바일 장치에 대한 것이며, 이러한 장치의 대표적인 구성에서 일부 구성 소자는 필요에 따라 생략되거나 변경될 수 있다.

본 발명의 일 실시 예에서, 사용자는 본 발명을 수행하기 위해 아래와 같이 에어리어 스마트폰 또는 다른 휴대용 장치를 이용할 것이다:

사용자는 원하는 미디어 표시부(예를 들어, TV, PC, 태블릿)에 자신의 휴대용 장치의 카메라를 맞춘다.

수초(평균 사용자에게 4 내지 10초가 수용 가능한 대기 시간임) 후에, 휴대용 장치는 표시부 상에 보여지는 영화에 대한 정보를 표시한다. 이러한 정보는 제목, 배우 이름, 영화의 시간 스탬프 등을 포함할 수 있다.

본 발명의 실시 예들에 따른 시스템은 모바일 장치와 같은 클라이언트 장치와 클라우드 기반 서비스의 서버로 구성될 수 있다. 이에 대해서, 구체적으로, 도 1 및 도 2를 참조하여 설명하도록 한다.

도 1은 본 발명의 실시 예에 따라 클라이언트 장치 및 서버에 대한 구성을 나타내는 블록도이다.

본 발명의 실시 예에 따른 클라이언트 장치(10)는 모바일 장치가 될 수 있다.

먼저, 클라이언트 장치(10)는 식별하고자 하는 미디어를 캡쳐링하여 하나 이상의 캡쳐된 이미지를 생성하고, 이미지 프로세싱 알고리즘을 이용하여 캡쳐된 이미지로부터 스마트 선택을 수행한다. 여기서, 스마트 선택은 사용자에 의한 선택 및 이미지 프로세싱 알고리즘을 기반으로 한 선택 중 적어도 하나일 수 있다.

클라이언트 장치(10)는 선택된 이미지를 질의(query)로서 서버(20)를 포함하는 하나 이상의 서버들로 송신하고, 서버(20)를 포함하는 다양한 서버들로부터 응답을 집계하여 스마트 계산을 수행한 후 결과를 출력한다.

다음으로, 서버(20)는 클라이언트 장치(10)를 포함하는 하나 이상의 클라이언트 장치들로부터 다양한 식별 요구를 버퍼링하는 요구 및 응답 큐(queue)를 수행하고, 서버(20) 내 이용 가능한 검색 엔진으로 각 식별 요구를 포워딩한다.

서버(20)는 데이터베이스 내의 모든 이미지에 대해서 선택된 검색 엔진 내의 검색 알고리즘을 실행하여 매칭 가능성 리스트를 생성하고, 생성된 매칭 가능성 리스트를 포함하는 응답을 하나 이상의 클라이언트 장치에게 송신한다.

도 1에 따르면 클라이언트 장치(10)는 프로세서(100), 표시부(101), 통신부(102), 메모리(103)를 포함한다.

프로세서(100)는 식별하고자 하는 미디어를 캡쳐링하여 하나 이상의 캡쳐된 이미지를 생성하고, 이미지 프로세싱 알고리즘을 이용하여 캡쳐된 이미지로부터 스마트 선택을 수행한다. 이때, 미디어 및 캡쳐된 이미지는 메모리(103)에 저장될 수 있다.

프로세서(100)는 선택된 이미지를 포함하는 질의 메시지를 통신부(102)를 통해서 서버(20)로 송신하고, 서버(20)로부터 응답 메시지가 수신되면 수신된 응답 메시지에 포함된 매칭 가능성 리스트를 집계하여 스마트 계산을 수행한 후 표시부(101)를 통해서 결과를 출력한다.

표시부(101)는 액정표시장치(LCD, Liquid Crystal Display)로 형성될 수 있으며, 클라이언트 장치(10)의 메뉴, 입력된 데이터, 기능 설정 정보 및 기타 다양한 정보를 사용자에게 시각적으로 제공한다. 이러한 표시부(101)는 LCD 이외에 다양한 장치들로 구성될 수 있다. 표시부(101)는 클라이언트 장치(10)의 부팅 화면, 대기 화면, 표시 화면, 통화 화면, 기타 어플리케이션 실행화면을 출력하는 기능 등을 수행한다.

통신부(102)는 클라이언트 장치(10)와 서버(20)간의 통신을 수행하며, 이를 위한 다양한 통신 기법을 이용할 수 있으며, 특히, 통신부(102)는 서버(20)로 질의 메시지를 송신하고, 질의 메시지에 대한 응답 메시지를 서버(20)로부터 수신한다.

메모리(103)는 프로세서(100), 표시부(101), 통신부(102)의 동작에 대응되는 입/출력되는 신호 또는 데이터를 저장할 수 있다. 또한 메모리(103)는 클라이언트 장치(10) 또는 프로세서(100)의 제어를 위한 제어 프로그램 및 어플리케이션들을 저장할 수 있다.

다음으로 서버(20)는 프로세서(110), 검색 엔진(111), 표시부(120), 통신부(130), 메모리(140), 데이터베이스(141)를 포함한다. 이때, 검색 엔진(111)은 프로세서(110) 내에 포함될 수 있고, 별개로 구분되어 구비될 수도 있다. 또한 데이터베이스도 메모리(140) 내에 포함될 수 있고, 별개로 구분되어 구비될 수도 있다.

프로세서(110)는 통신부(103)를 통해서 클라이언트 장치(10)로부터 식별 요구를 나타내는 질의 메시지를 버퍼링하는 요구 및 응답 큐(queue)를 수행하고, 해당 요구를 검색 엔진(111)에 포워딩한다.

프로세서(110)는 데이터베이스(141) 내의 모든 이미지에 대해서 검색 엔진(111) 내의 검색 알고리즘을 실행하여 매칭 가능성 리스트를 생성하고, 생성된 매칭 가능성 리스트를 포함하는 응답을 통신부를 통해서 클라이언트 장치(10)에게 송신한다.

검색 엔진(111)은 매칭 가능성 리스트를 생성하기 위해서 사용되는 검색 알고리즘을 저장한다. 본 발명의 실시 예에서 검색 엔진(111)은 하나로 구성되는 것으로 설명하였으나, 다양한 검색 엔진들이 서버(20) 내에 구비될 수 있다.

표시부(120)는 액정표시장치(LCD, Liquid Crystal Display)로 형성될 수 있으며, 서버(20)의 다양한 정보를 사용자에게 시각적으로 제공한다. 이러한 표시부(120)는 LCD 이외에 다양한 장치들로 구성될 수 있다.

통신부(130)는 클라이언트 장치(10)와 서버(20)간의 통신을 수행하는데, 특히 클라이언트 장치(10)로부터 질의 메시지를 수신하고, 수신된 질의 메시지에 대한 응답 메시지를 클라이언트 장치(10)로 송신한다.

메모리(140)는 프로세서(110), 검색 엔진(111), 표시부(120), 통신부(130)의 동작에 대응되는 입/출력되는 신호 또는 데이터를 저장할 수 있다. 또한 메모리(140)는 서버(20) 또는 프로세서(110)의 제어를 위한 제어 프로그램 및 어플리케이션들을 저장할 수 있다.

데이터베이스(141)는 매칭 가능성 리스트를 생성하기 위해서 사용되는 하나 이상의 이미지를 저장한다.

상기의 데이터베이스(141)에 대해서 구체적으로 살펴보면, 데이터 베이스(141)는 각각의 호스트 영화에 대해 중요한 또는 고유한 이미지들을 포함한다. “중요한 또는 고유한”이라는 것은 데이터베이스(141) 내에 호스팅된 영화의 모든 이미지들을 입력하는 대신, 실질적으로 상이한 또는 고유한 이미지들만이 선택 및 저장된다는 것을 의미한다. 예를 들어, 카메라가 2명의 대화하는 것을 나타내는 길고 정적인 장면(scene)이 있고, 이 장면에서 큰 이동이나 변화가 없는 경우에 하나의 이미지만이 저장될 것이다. 한편, 액션 영화에서 매우 동적인 장면이 존재하는 경우 데이터베이스(141)는 이러한 장면으로부터 다수의 이미지들을 포함해야 한다. 이러한 로직(logic)은 중요한 프레임들만이 저장되는 비디오 압축 알고리즘에서 수행되는 것과 유사하며, 본 발명의 실시 예에 따르면 중간 프레임을 재생성하는데 필요한 정보를 저장할 필요가 없다는 차이점이 있다.

이러한 “스마트” 데이터베이스 생성을 위해서 도 2를 참조하여 구체적으로 살펴보면 다음과 같다.

본 발명의 실시 예에서 서버(20)는 각각의 새로운 영화를 프레임 별로 분석하고, 각각의 프레임을 그 내부의 피쳐들의 수에 대해 테스트한다. 피쳐의 수가 임계값 미만이면 서버(20)는 다음 프레임을 테스트한다.

서버(20)는 각각의 프레임을 16개의 영역들(bins)로 분할하고, 각 영역 내의 피쳐들의 수를 카운트하여 각 영역 내에서 현재 테스트된 피쳐들의 수를 서버(20)로의 업로드를 위해 선택된 최후 프레임의 각 영역 내 피쳐들의 수와 비교한다. 각 영역 내의 피쳐들의 수 사이의 전체 차이가 원하는 임계값에 교차하면 서버(20)는 그 프레임을 선택된 최종 프레임과 상당히 상이한 것으로 고려한다.

도 2에 따르면 200단계에서 서버(20)는 제1 영화 프레임을 획득한다 ($bins[16]=0).

201단계에서 서버(20)는 피쳐의 수가 임계값 보다 큰지를 판단하여 피쳐의 수가 임계값 이상이면 202단계로 진행하고, 피쳐의 수가 임계값 보다 작으면 206단계로 진행하여 다음 영화 프레임을 획득한다.

202단계에서 서버(20)는 제1 영화 프레임을 16개의 영역으로 분할하고, 각 피쳐들의 수를 계산한다.

203단계에서 서버(20)는 상단 영역에서 $bins까지의 거리를 계산한다. 다시 말해서, 서버(20)는 왼쪽 상단 영역부터 오른쪽 하단 영역까지의 각 거리를 계산한다.

204단계에서 서버(20)는 거리가 임계값보다 큰지를 판단하여 거리가 임계값보다 크면 205단계로 진행하고, 거리가 임계값보다 작으면 206단계로 진행하여 다음 영화 프레임을 획득한다.

205단계에서 서버(20)는 현재 프레임을 선택하여 업로드하고, 206단계에서 다음 영화 프레임을 획득한다.

207단계에서 서버(20)는 영화의 끝인지를 판단하여 영화의 끝이면 프로세스를 종료하고, 영화의 끝이 아니면 204단계로 진행하여 피쳐의 수가 임계값보다 큰지를 판단하고 202단계에서 207단계를 진행한다.

도 3a 내지 도 3b를 참조하여 클라이언트 장치(10)에서의 “스마트” 캡쳐 이미지 선택을 살펴보면 다음과 같다. 본 발명의 실시 예에서 클라이언트 장치(10)는 최적 조건에서 수행하고 이하의 특정 기준을 따르는 이미지들을 송신할 수 있다. 이때, 특정 기준을 따르는 이미지는 피쳐, 양호한 매칭 결과를 가능하도록 하기 위해 충분한 세부사항 및 밝기, 초점 등과 같은 양호한 조건을 가지며, 이전에 송신된 이미지와 상이한 이미지가 될 수 있다. 만약 피쳐 공간 분포가 송신된 최후 이미지와 상당히 다른 경우 이러한 이미지를 특정 기준을 따르는 이미지로 판정할 수 있다.

300단계에서 클라이언트 장치(10)는 $bins[16]=0부터 수행한다.

301단계에서 클라이언트 장치(10)는 프리뷰 프레임을 획득하고, 302단계에서 스크린이 검출되는지를 판단하여 스크린이 검출되면 303단계를 진행하고, 스크린이 검출되지 않으면 301단계를 진행하여 프리뷰 프레임을 획득한다.

303단계에서 클라이언트 장치(10)는 프리뷰 프레임으로부터 스크린 영역을 절단하고, 임의의 크기로 정규화한다. 이때, 임의의 크기는 800(픽셀)x480(픽셀) 크기가 될 수 있다.

304단계에서 클라이언트 장치(10)는 정규화된 프레임 내 피쳐들의 수가 임계값보다 큰지를 판단하여 피쳐들의 수가 임계값보다 크면 305단계로 진행하고, 피쳐들의 수가 임계값보다 작거나 같으면 301단계로 진행하여 프리뷰 프레임을 획득한다.

305단계에서 클라이언트 장치(10)는 해당 프레임의 초점이 맞는지를 판단하여 초점이 맞았으면 306단계로 진행하고, 초점이 맞지 않으면 301단계로 진행하여 프리뷰 프레임을 획득한다.

예를 들어, 클라이언트 장치(10)는 해당 프레임의 선명도 값을 산출하고, 산출된 선명도 값이 임계값보다 큰지를 판단하여 임계값보다 크면 306단계를 진행하고, 임계값보다 작거나 같으면 301단계로 진행하여 프리뷰 프레임을 획득한다.

306단계에서 클라이언트 장치(10)는 해당 프레임을 16개의 영역들(bins)로 분할하고, 분할된 각 영역 내의 피쳐들의 수를 계산한다.

이에 대해서, 도 4 내지 도 7을 참조하여 설명하도록 한다.

도 4는 본 발명의 실시 예에 따라 미디어 스트림에서 선택된 피쳐(Feature)들을 나타내는 이미지에 대한 예시도이고, 도 5는 본 발명의 실시 예에 따라 미디어 스트림 중 복수의 피쳐 영역 에 따라 분할된 이미지를 나타내는 예시도이며, 도 6은 본 발명의 실시 예에 따라 각 피쳐 영역의 수를 표시한 분할 이미지를 나타내는 예시도이고, 도 7은 본 발명의 실시 예에 따라 복수의 피쳐 영역을 가지는 다른 이미지를 나타내는 예시도이다.

구체적으로, 클라이언트 장치(10)는 도 4와 같이 특정 영화의 한 프레임을 도 5와 같이 16개의 영역으로 분할하고, 각 분할된 영역 내의 피쳐들의 수를 카운트하여 도 6과 같이 각 영역 상에 표시할 수 있다. 예를 들어, 도 6의 좌측 상단 영역(500)은 피쳐들의 수가 20개이고, 도 7의 좌측 상단 영역(600)은 피쳐들의 수가 1이 될 수 있다.

307단계에서 클라이언트 장치(10)는 분할된 영역들 중 상단 영역부터 $bins까지의 거리를 계산한다. 예를 들어, 클라이언트 장치(10)는 분할된 영역들 중 도 6과 같이 좌측 상단 영역(500)부터 마지막 우측 하단 영역까지의 거리를 계산할 수 있다.

308단계에서 클라이언트 장치(10)는 계산된 거리가 임계값보다 큰지를 판단하여 계산된 거리가 임계값보다 크면 A 단계로 진행하고, 계산된 거리가 임계값보다 작거나 같으면 301단계로 진행하여 프리뷰 프레임을 획득한다.

클라이언트 장치(10)는 도 3b에 의해서 서버(20)로부터 수신된 결과 집계 및 결정을 수행한다.

도 3b에 따르면 A 단계에서 309단계로 진행한 클라이언트 장치(10)는 새로운 요구 스레드를 개시한다.

310단계에서 클라이언트 장치(10)는 새로운 요구 스레드 개시에 의한 질의 메시지를 생성하여 서버(20)로 송신한다. 이때, 클라이언트 장치(10)는 서버(20)를 포함하는 다양한 서버들로 질의 메시지를 송신할 수 있다.

311단계에서 클라이언트 장치(10)는 서버(20)로부터 질의 메시지에 대한 응답 메시지를 수신한다. 이때, 클라이언트 장치(10)는 서버(20)를 포함하는 다양한 서버들로부터 응답 메시지를 수신할 수 있다. 이에 대해서, 구체적으로 도 8을 참조하여 살펴보면 다음과 같다.

도 8은 본 발명의 실시 예에 따라 결과 집계 히스토그램을 나타내는 예시도이다.

클라이언트 장치(10)는 서버(20)로부터 반환된 결과를 시간 히스토그램에 추가하는데, 이러한 시간 히스토그램은 각 필름을 임의의 시간에 대한 단시간 슬롯으로 분할된 히스토그램이 될 수 있다. 예를 들어, 임의의 시간은 도 8과 같이 10초가 될 수 있다.

313단계에서 클라이언트 장치(10)는 히스토그램 피크가 존재하는지를 판단하여 히스토그램 피크가 존재하면 314단계를 진행하여 위너(winner)를 선언하고, 히스토그램 피크가 존재하지 않으면 315단계를 진행하여 요구 스레드를 종료한다.

구체적으로, 클라이언트 장치(10)는 히스토그램에 추가된 각 결과로 모든 히스토그램들에 대한 중요한 피크(최대점)을 체크하는데, 이러한 동작은 각 히스토그램으로 윈도우를 이동하고, 결과들을 합함으로써 수행될 수 있다. 여기서, 윈도우 사이즈는 식별 프로세스의 개시로부터 경과된 시간과 동등하다.

이후 윈도우 내의 결과들의 요약이 모든 다른 윈도우로부터의 특정 임계값보다 더 크다면 클라이언트 장치(10)는 위너를 선언한다.

본 발명의 일 실시 예에서 상기의 프로세스는 클라이언트 장치측에서 수행되지만, 다른 실시 예에서 상기의 프로세서는 서버측에서 수행될 수도 있다.

서버(20)는 이미지 유사성 평가가 실행되는데, 편의를 위하여 Tomcat(Apache Tomcat 6.0)상에서 실행하는 JEE 웹 어플리케이션으로서 구현될 수 있다.

서버(20)는 클라이언트 장치(10)와 통신하기 위해 HTTP 프로토콜을 사용하며, 이를 통해서 이미지들을 수신하고, 매칭 스코어에 따라 매칭 이미지들의 이름들을 클라이언트 장치(10)로 회신한다.

이미지들의 큰 셋을 매칭하기 위해서 대규모 이미지 검색 시스템(Matas, J., Chum, 0., “Large Scale Image Retrieval” (2010), http://cw.felk.cvut.cz/lib/exe/fetch.php/courses/a4m33mpv/2010.03.08_large-cale-image-retrieval.pdf)은 멀티-스레딩(multi-threading) 및 멀티-프로세싱을 지원하기 위해 변형될 수 있다.

당업자에게 이해되는 바와 같이, 멀티-스레딩은 몇개의 스레드들에서 인식 프로세스를 실행할 수 있게 하여 단일 픽쳐를 인식하는 데 필요한 시간을 감소시킨다. 멀티-프로세싱은 별개의 코어들 상에서 몇개의 이미지들에 대한 인식을 동시에 실행할 수 있게 하여 이용가능한 머신을 전체로 이용한다.

도 8과 같이 유사성 평가는 로컬 피쳐들의 유사성 매칭에 따른다. 이러한 종류의 접근법은 많은 장점, 가장 중요하게는 어파인(affine) 변환 및 부분 오클루젼(occlusion)에 강인성을 갖는다.

이에 대해서 도 9를 참조하여 설명하도록 한다.

도 9는 본 발명의 실시 예에 따른 유사성 매칭 스테이지를 개략적으로 나타내는 도면이다.

먼저, 피쳐 포인트들을 계산하는 것으로 피쳐 검출 프로세스(900)가 수행된다.

이때, 헤시안 어파인(Hessian affine) 영역 검출기가 이러한 목적을 위해 사용되어 어파인 변환에 대해 영역들이 불변(invariantly) 검출된다. 이러한 어파인 변환은 모든 리얼(투영) 변환의 매우 양호한 근사이다.

피쳐 포인트들이 검출된 후 피쳐 디스크립션 프로세스(901)가 SIFT(Scale invariant feature transform) 디스크립터로 기술된다.

이때, 저장된 데이터의 양을 감소시키기 위해 각 이미지에 대한 디스크립터가 k-d 트리의 랜덤화된 포리스트(forest)를 이용하여 정량화한다. 이러한 접근법은 David G. Lowe, "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision, 60, 2 (2004), pp. 91-110에 기술된 바에 따라서 수행될 수 있다.

각각의 128차원 디스크립터가 3바이트에 의해 표현되는 것과 같이 이러한 동작은 저장된 데이터의 양의 매우 큰 감소를 가능하게 한다. 이러한 압축된 표현은 “비주얼 워드(visual words)”와 같은 문헌에 통상적으로 기술되어 있다.

비주얼 워드는 이들의 각각의 로컬 지어메트리 및 “역파일”이라 칭해지는 구조 내의 연관 이미지들에 따라 저장되고, 주어진 피쳐에 대해 이미지들의 빠른 검색을 가능하게 한다. “역파일” 구조는 본 기술분야의 당업자에게 잘 알려져 있기 때문에 본 발명의 실시 예에서는 상세하게 기술하지 않도록 한다(예를 들어 http://en.wikipedia.org/wiki/Inverted_index에 기술됨).

이미지 매칭 프로세스(902)는 로컬 피쳐 포인트들을 매칭하는 것으로 시작될 수 있다.

매칭의 충분한 수가 2개의 이미지들에 대해 확립될 수 있는 경우 지오메트리 검증 프로세스(903)에 의해서 대응 지어메트리가 검증되어 이미지들 내의 구조들이 서로 실제로 유사하다는 것을 보장한다.

이러한 과정들이 성공적으로 완료되면 최종 매칭 스코어가 계산될 수 있다.

이와 같이 설명된 본 발명의 실시 예는 약 5백만 이미지들을 인덱싱할 수 있고, 다수의 시스템이 저장을 위해 사용되는 경우 약 수억개의 이미지들을 인덱싱할 수 있다.

Matas, J. 그리고 Chum, O.에 의해 설계된 앞서 참조된 원래 소프트웨어는 단일 이미지의 검색을 약 5 내지 10초에 가능하게 한다.

본 발명의 실시 예에서는 적응성 이미지 스케일링, 멀티스레딩 및 병렬 프로세싱을 구현함으로써 1초 내지 2초의 레벨로 향상될 수 있다.

이미지 스케일링은 프로세싱 시간과 검색 정확도 사이에 양호한 트레이드오프가 되는 이미지의 특정 사이즈를 단지 선택하는 것과 관련된다.

멀티스레딩은 단일 이미지에서 피쳐들을 추출하기 위해 구현되었다(계산 디스크립터들). 피쳐들을 추출하는 프로세스는 블러링(blurring)과 같은 이미지의 전처리와 관련된다. 일반적으로 이미지는 몇 개의 영역들로 분할되고, 각 영역은 상이한 스레드에 의해 프로세싱된다.

또한, 디스크립터들이 계산되면 계산된 디스크립터들은 3바이트 양식으로 정량화될 수 있다. K-d 트리의 적절한 라벨들을 계산된 디스크립터들에 할당하는 것은 멀티-스레딩과 관련된다. 하지만, 알려진 피쳐들로 검색하는 프로세스는 매우 빠르기 때문에 멀티스레딩은 지각할 수 있는 향상을 제공하지 않는다.

멀티플 프로세싱은 상이한 이미지들의 병렬 프로세싱과 관련된다. 일반적으로, 마스터 프로세스는 이미지들을 인식하기 위하여 모든 요구들을 수신하고, 각각의 새로운 이미지를 다음의 프리(free) 프로세스에 할당한다. 모든 프로세스들이 사용중인 경우 프리로 되는 첫번째 것이 큐(queue)로부터 첫번째 대기하는 이미지를 얻는다. 사용될 수 있는 프로세스들의 수는 이용 가능한 CPU에 따르며, 이러한 프로세서들의 수는 설정 가능한 파라미터이다. 예를 들어, 프로세서의 수는 2개 또는 4개가 사용될 수 있다.

본 발명의 실시 예에서는 강인한 이미지 유사성 매칭 모듈을 갖기 위해서 임의의 시간 구간마다 하나의 프레임을 인덱싱할 수 있다. 예를 들어, 임의의 시간은 0.5초가 될 수 있다.

또한 본 발명의 또 다른 실시 예에서는 인덱싱을 수행하고, 클라이언트 장치(10)로부터 서버(20)로 이미지들을 송신하기 위해 이전 프레임들에 비해 현저하게 변화된 경우 프레임을 인덱싱할 수 있다.

이러한 현저한 변화를 평가하기 위해 FAST(Features from Accelerated Segment Test) 디스크립터들이 프레임의 16개의 영역들에 대해 계산되고, 대응 영역들 내의 피쳐들의 수들 사이의 차이가 계산될 수 있다. 계산된 차이가 상술한 특정 임계값보다 크면 해당 이미지 프레임은 서버(20)로 송신되기에/인덱싱되기에 충분히 상이한 것으로 고려될 수 있다.

본 발명의 실시 예에 따른 클라이언트 장치(10)는 이러한 과정을 기반으로 어떠한 영화가 인식되고 있는지를 결정하지 않은 동안 새로운 이미지들을 서버(20)에 송신하도록 할 수 있다.

어떠한 영화가 보여지고 있는지에 대한 결정을 위해서 클라이언트 장치(10)는 각 영화에 대해 생성된 시간 히스토그램을 기반으로 하기의 과정들을 수행할 수 있다.

먼저, 클라이언트 장치(10)는 매칭 서버로부터 반환된 각각의 결과가 시간 히스토그램에 부가되는데, 이러한 히스토그램은 각각의 필름을 단시간 슬롯들로 분할될 수 있다. 여기서, 매칭 서버는 본 발명의 실시 예에서의 서버(20)가 될 수 있다.

다음으로 클라이언트 장치(10)는 히스토그램에 부가된 각각의 결과로 모든 히스토그램들이 중요한 최대점에 대해 체크한다. 이러한 과정은 윈도우를 각각의 히스토그램으로 이동하고, 결과들을 합함으로써 수행될 수 있다.

마지막으로 클라이언트 장치(10)는 윈도우 내의 결과의 합이 모든 다른 윈도우들과 특정 임계값보다 더 크다면 위너를 선언할 수 있다.

본 발명의 실시 예에서는 각 프로세스 또는 방법들이 당업자에게 자명한 프로세서 또는 방법들을 이용할 수 있다.

뿐만 아니라 본 발명의 실시 예에서 각각의 임계값들은 각 판단 과정을 위해 미리 설정된 값들이 될 수 있다.

본 발명의 실시 예에서는 클라이언트 장치가 식별하고자 하는 미디어로부터 하나 이상의 프레임을 캡쳐하여 선택된 이미지를 포함하는 질의 메시지를 서버로 송신하고, 서버로부터 분석된 이미지들에 대한 결과가 포함된 응답 메시지가 수신되면 이를 집계하여 사용자에게 표시함으로써 재생 시간이 간 영화에 대한 다수의 이미지들을 식별할 수 있다.

10: 클라이언트 장치
100: 프로세서
101: 표시부
102: 통신부
103: 메모리
20: 서버
110: 프로세서
111: 검색 엔진
120: 표시부
130: 통신부
140: 메모리
141: 데이터베이스

Claims

미디어 스트림에 대한 이미지를 식별하기 위한 방법에 있어서,
식별하고자 하는 미디어 스트림에서 하나 이상의 프레임을 캡쳐하는 과정과,
상기 캡쳐된 하나 이상의 프레임 중 선택된 프레임을 포함하는 질의 메시지를 생성하는 과정과,
상기 생성된 질의 메시지를 하나 이상의 서버로 송신하는 과정과,
상기 하나 이상의 서버로부터 상기 선택된 프레임에 대한 분석된 결과를 포함하는 응답 메시지를 수신하는 과정과,
상기 하나 이상의 서버로부터 수신된 결과를 집계하여 출력하는 과정을 포함하는 것을 특징으로 하는 이미지 식별 방법.
제 1 항에 있어서,
상기 하나 이상의 서버로부터 수신된 결과를 시간 히스토그램에 부가하는 과정과,
윈도우를 상기 시간 히스토그램에 부가된 결과들로 이동시키는 과정과,
상기 윈도우 내 결과들을 합하여 상기 시간 히스토그램의 최대점을 체크하는 과정과,
상기 윈도우 내에 결과들의 합이 다른 윈도우들로부터 요구된 임계값보다 크면 위너를 선언하는 과정을 더 포함하는 것을 특징으로 하는 이미지 식별 방법.
제 1 항에 있어서,
상기 선택된 프레임을 임의의 크기로 정규화하는 과정과,
상기 정규화된 프레임 내 피쳐들의 수가 제1 임계값보다 큰지를 판단하는 과정과,
상기 피쳐들의 수가 상기 제1 임계값보다 크면 상기 정규화된 프레임의 초점이 맞았는지를 판단하는 과정과,
상기 정규화된 프레임의 초점이 맞으면 상기 정규화된 프레임을 다수의 영역들로 분할하는 과정과,
상기 다수의 영역으로 분할된 프레임의 각 영역 내의 피쳐들의 수를 계산하는 과정과,
상기 계산된 피쳐들의 수를 상기 각 영역 내에 표시하는 과정을 더 포함하는 것을 특징으로 하는 이미지 식별 방법.
제3항에 있어서,
상기 분할된 다수의 영역들 각각에 대한 거리를 계산하는 과정과,
상기 계산된 거리들이 제2 임계값보다 큰지를 판단하는 과정과,
상기 계산된 거리들이 제2 임계값보다 크면 새로운 요구 스레드에 대한 질의 메시지를 생성하는 과정을 더 포함하는 것을 특징으로 하는 이미지 식별 방법.
미디어 스트림에 대한 이미지를 식별하기 위한 클라이언트 장치에 있어서,
메시지를 송수신하는 통신부와,
데이터를 출력하는 표시부와,
식별하고자 하는 미디어 스트림에서 하나 이상의 프레임을 캡쳐하고, 상기 캡쳐된 하나 이상의 프레임 중 선택된 프레임을 포함하는 질의 메시지를 생성하여 상기 생성된 질의 메시지를 상기 통신부를 통해서 하나 이상의 서버로 송신한 후 상기 하나 이상의 서버로부터 상기 선택된 프레임에 대한 분석된 결과를 포함하는 응답 메시지가 수신되면 상기 하나 이상의 서버로부터 수신된 결과를 집계하여 상기 표시부를 통해서 출력하는 프로세서를 포함하는 클라이언트 장치.
제5항에 있어서, 상기 프로세서는,
상기 하나 이상의 서버로부터 수신된 결과를 시간 히스토그램에 부가하고, 윈도우를 상기 시간 히스토그램에 부가된 결과들로 이동시킨 후 상기 윈도우 내 결과들을 합하여 상기 시간 히스토그램의 최대점을 체크하여 상기 윈도우 내에 결과들의 합이 다른 윈도우들로부터 요구된 임계값보다 크면 위너를 선언하는 것을 특징으로 하는 클라이언트 장치.
제6항에 있어서, 상기 프로세서는,
상기 선택된 프레임을 임의의 크기로 정규화하고, 상기 정규화된 프레임 내 피쳐들의 수가 제1 임계값보다 큰지를 판단하여 상기 피쳐들의 수가 상기 제1 임계값보다 크면 상기 정규화된 프레임의 초점이 맞았는지를 판단하고, 상기 정규화된 프레임의 초점이 맞으면 상기 정규화된 프레임을 다수의 영역들로 분할한 후 상기 다수의 영역으로 분할된 프레임의 각 영역 내의 피쳐들의 수를 계산하며, 상기 계산된 피쳐들의 수를 상기 각 영역 내에 표시하는 것을 특징으로 하는 클라이언트 장치.
제7항에 있어서, 상기 프로세서는,
상기 분할된 다수의 영역들 각각에 대한 거리를 계산하고, 상기 계산된 거리들이 제2 임계값보다 큰지를 판단하여 상기 계산된 거리들이 제2 임계값보다 크면 새로운 요구 스레드에 대한 질의 메시지를 생성하는 것을 특징으로 하는 클라이언트 장치.
제5항에 있어서, 상기 프로세서는,
이미지 스케일링, 멀티스레딩 및 병렬 프로세싱을 수행하여 프레임을 선택하는 것을 특징으로 하는 클라이언트 장치
미디어 스트림에 대한 이미지를 식별하기 위한 방법에 있어서,
클라이언트 장치로부터 선택된 프레임이 포함된 질의 메시지를 수신하는 과정과,
미리 저장된 각 영화에 대해서 스위칭되고, 서로 다른 프레임들을 포함하는 데이터베이스를 기반으로 상기 수신된 프레임을 분석하는 과정과,
상기 수신된 프레임을 분석한 결과를 포함하는 응답 메시지를 생성하는 과정과,
상기 생성된 응답 메시지를 상기 클라이언트 장치로 송신하는 과정을 포함하는 것을 특징으로 하는 이미지 식별 방법.
제10항에 있어서,
상기 수신된 프레임에 대한 피쳐의 수가 제3 임계값보다 큰지를 판단하는 과정과,
상기 피쳐의 수가 상기 제3 임계값 보다 크면 상기 수신된 프레임을 다수의 영역으로 분할하는 과정과,
상기 분할된 다수의 영역들 각각에 대한 거리를 계산하는 과정과,
상기 계산된 거리들이 제4 임계값보다 큰지를 판단하는 과정과,
상기 계산된 거리들이 제4 임계값보다 크면 상기 수신된 프레임을 데이터베이스에 업로드하는 과정을 더 포함하는 것을 특징으로 하는 이미지 식별 방법.
제10항에 있어서, 상기 데이터베이스를 기반으로 상기 수신된 프레임을 분석하는 과정은,
피쳐 검출을 수행하는 과정과,
피쳐 디스크립션을 수행하는 과정과,
이미지 매칭을 수행하는 과정과,
지오메트리 검증을 수행하는 과정을 포함하는 것을 특징으로 하는 이미지 식별 방법.
미디어 스트림에 대한 이미지를 식별하기 위한 서버에 있어서,
미리 저장된 각 영화에 대해서 스위칭되고, 서로 다른 프레임들을 포함하는 데이터베이스와,
메시지를 송수신하는 통신부와,
상기 통신부를 통해서 클라이언트 장치로부터 선택된 프레임이 포함된 질의 메시지가 수신되면 상기 데이터베이스를 기반으로 상기 수신된 프레임을 분석하고, 상기 수신된 프레임을 분석한 결과를 포함하는 응답 메시지를 생성한 후 상기 생성된 응답 메시지를 상기 클라이언트 장치로 송신하는 프로세서를 포함하는 서버.
제13항에 있어서, 상기 프로세서는,
상기 수신된 프레임에 대한 피쳐의 수가 제3 임계값보다 큰지를 판단하여 상기 피쳐의 수가 상기 제3 임계값 보다 크면 상기 수신된 프레임을 다수의 영역으로 분할하고, 상기 분할된 다수의 영역들 각각에 대한 거리를 계산하여 상기 계산된 거리들이 제4 임계값보다 큰지를 판단하고, 상기 계산된 거리들이 제4 임계값보다 크면 상기 수신된 프레임을 데이터베이스에 업로드하는 것을 특징으로 하는 서버.
제13항에 있어서, 상기 프로세서는,
피쳐 검출, 피쳐 디스크립션, 이미지 매칭, 지오메트리 검증을 수행하여 상기 상기 수신된 프레임을 분석하는 과정을 포함하는 것을 특징으로 하는 이미지 식별 방법.