KR101647691B1

KR101647691B1 - 하이브리드 기반의 영상 클러스터링 방법 및 이를 운용하는 서버

Info

Publication number: KR101647691B1
Application number: KR1020160016295A
Authority: KR
Inventors: 박선규
Original assignee: 데이터킹주식회사
Priority date: 2016-02-12
Filing date: 2016-02-12
Publication date: 2016-08-16
Also published as: US20180349732A1; WO2017138766A1; US10803348B2

Abstract

하이브리드 기반의 영상 클러스터링 방법 및 이를 운용하는 서버가 개시된다. 본 발명의 다양한 실시예에 따른 하이브리드 기반의 영상 클러스터링 방법은 서버에서 하이브리드 기반으로 영상을 클러스터링하는 방법으로서, 복수의 영상에 대해서 각 영상에 포함된 영상 객체를 추출하는 단계; 미리 설정된 기준대상 객체와 상기 추출된 각 영상 객체간의 유사 특징점 정보를 산출하는 단계; 상기 유사 특징점 정보를 기반으로 상기 복수의 영상 중 적어도 일부를 상기 기준대상 객체와 관련된 제1 영상 그룹으로 클러스터링하는 단계; 및 상기 제1 영상 그룹에 포함된 영상들의 촬영위치 정보 및 장소태그 정보 중 적어도 하나를 기반으로 상기 제1 영상 그룹에 포함된 영상들 중 적어도 일부를 제2 영상 그룹으로 클러스터링하는 단계를 포함할 수 있다.

Description

하이브리드 기반의 영상 클러스터링 방법 및 이를 운용하는 서버{METHOD FOR HYBRID-BASED VIDEO CLUSTERING AND SERVER IMPLEMENTING THE SAME}

본 발명의 다양한 실시예들은 하이브리드 기반의 영상 클러스터링 방법에 관한 것으로서, 보다 구체적으로 영상에 대한 특징점 추출, 위치 정보 및 태그 정보를 융합하여 복수의 영상을 클러스터링하는 기술에 관한 것이다.

일반적으로, 빅데이터(Big Data)란 기존의 수집, 저장, 분석, 관리 역량을 넘어서는 대량의 정형 또는 비정형의 데이터 셋(Data set)을 의미하며 정형 데이터와 비정형 데이터로 분류된다. 이 경우, 비정형 데이터는 텍스트(text), 영상(video), 오디오(audio), 이미지(image) 등으로 구분될 수 있다.

텍스트 데이터의 경우 텍스트 마이닝과 같은 자연어 처리 기법 또는 소셜 네트워크 분석 등 다양한 연구가 시도되고 있으며, 오디오 데이터는 음성인식용 인공지능 기술개발이 활발하게 전개되고 있다. 이에 반해, 이미지의 연속적인 스트림 형태인 비디오 빅데이터 분석에 관한 연구는 영상분류의 기술적인 처리 속도 및 데이터베이스의 부담으로 상당히 초보적인 단계에 머물러 있는 실정이다.

최근, 영상을 비롯한 인터넷 멀티미디어 콘텐츠로부터 관련 정보와 객체 데이터를 추출하여 이를 바탕으로 새로운 비즈니스를 창출하는 OTT(Over The Top) 서비스가 제공되고 있다. OTT 서비스는 인터넷을 통한 비디오, 텔레비전, 기타 방송 서비스 제공 방식을 의미한다. 나아가, 새로운 종류의 디지털 미디어 플레이어(예: 애플 TV™, 구글™ 등)의 공급으로 인해 OTT와 비디오 온디맨드(Video On Demand) 플랫폼에 제공되는 비디오 콘텐츠의 수요는 폭발적으로 증가하고 있는 실정이다.

또한, 소셜 네트워크 등에서의 소통 수단이 텍스트와 사진 형태에서 단축비디오와 같은 영상 등으로 메시지를 전송하는 형태로 급격하게 변화되고 있는 실정이다.

한국 등록특허공보 제10-1078767

다양한 종류의 영상을 비디오콘텐츠 플랫폼에서 공유하는 경우, 사용자가 영상 정보를 검색하기 위해서는 특정의 태그화된 온라인 키워드를 사용해야 한다. 그러나, 영상이 올바르게 분류되지 못하거나 분류되기 어려운 경우, 사용자는 원하는 검색 기준에 따른 영상을 분류하거나 검색하기가 어려울 수 있다.

또한, 출처가 분명하지 못하거나 영상의 태그 정보가 올바르게 부여되지 않은 경우에는 분류 또는 검색 과정에서 상기 영상이 누락될 가능성이 높으며, 이로 인해 체계적이고 정확한 기준(예: 장소)에 따른 영상 분류가 어려울 수 있다는 문제점이 도출될 수 있다.

그리고, 특정 방법에 의해서만 영상을 클러스터링하는 경우 상기와 같이 사용자가 정확하게 의도하는 바대로 영상을 분류하기가 어렵다는 한계점이 있다. 특히, 이미지를 인식하는 방법은 복잡도가 높아 실시간 구현이 어렵고 조명상태 등에 따라 결과가 달라질 수 있다는 문제점이 여전히 해소되지 않고 있는 실정이다.

본 발명의 다양한 실시예에 따른 하이브리드 기반의 영상 클러스터링 방법은 전술한 문제점을 해결하기 위하여 안출된 것으로서, 특징점 추출, 위치 정보 및 태그 정보를 융합하여 복수의 영상을 보다 명확하게 클러스터링하는 방법에 관한 기술을 제공하고자 한다.

본 발명의 다양한 실시예에 따른 서버는 하이브리드 기반의 영상 클러스터링을 운용하는 서버로서, 복수의 영상에 대해서 각 영상에 포함된 영상 객체를 추출하는 영상객체 추출부; 기준대상 객체를 학습하는 기준대상 제공부; 및 상기 학습된 기준대상 객체와 상기 추출된 각 영상 객체간의 유사 특징점 정보를 산출하고, 상기 유사 특징점 정보를 기반으로 상기 복수의 영상 중 적어도 일부를 상기 기준대상 객체와 관련된 제1 영상 그룹으로 클러스터링하며, 상기 제1 영상 그룹에 포함된 영상들의 촬영위치 정보 및 장소태그 정보 중 적어도 하나를 기반으로 상기 제1 영상 그룹에 포함된 영상들 중 적어도 일부를 제2 영상 그룹으로 클러스터링하는 클러스터링 관리부를 포함할 수 있다.

또한, 상기 클러스터링 관리부는 상기 촬영위치 정보 및 장소태그 정보 중 적어도 하나를 기반으로 상기 복수의 영상에 대한 각각의 클러스터 변수를 산출하고, 상기 산출된 클러스터 변수를 기반으로 촬영위치 정보 및 장소태그 정보 중 어느 하나를 우선적으로 고려하여 상기 제2 영상 그룹으로 클러스터링할 수 있다.

또한, 상기 클러스터링 관리부는 각 영상과 관련된 촬영위치 정보에 따른 제1 신뢰도를 산출하고, 각 영상의 장소태그 정보에 따른 제2 신뢰도를 산출하며, 상기 제1 신뢰도 및 상기 제2 신뢰도를 기반으로 상기 클러스터 변수를 산출하고, 상기 제1 신뢰도는 상기 제2 신뢰도보다 더 높은 신뢰도를 가질 수 있다.

또한, 상기 클러스터링 관리부는, 상기 영상의 장소태그 정보가 복수 개인 경우, 상기 장소태그 정보가 상기 영상을 촬영한 촬영자에 의해 기록된 장소태그 정보인지 제3자에 의해 기록된 장소태그 정보인지를 확인하고, 확인된 결과에 따라 가중치를 부여하여 상기 제2 신뢰도를 산출하며, 상기 장소태그 정보가 상기 촬영자에 의해 기록된 장소태그 정보인 경우, 상기 제3자에 의해 기록된 경우보다 더 높은 가중치를 부여하여 상기 제2 신뢰도를 산출할 수 있다.

또한, 상기 영상객체 추출부는, 상기 영상에서 노출되는 복수의 객체 중 가장 많은 시간 동안 노출되는 객체를 상기 영상 객체로서 추출할 수 있다.

본 발명의 다양한 실시예에 따른 하이브리드 기반의 영상 클러스터링 방법은 서버에서 하이브리드 기반으로 영상을 클러스터링하는 방법으로서, 복수의 영상에 대해서 각 영상에 포함된 영상 객체를 추출하는 단계; 미리 설정된 기준대상 객체와 상기 추출된 각 영상 객체간의 유사 특징점 정보를 산출하는 단계; 상기 유사 특징점 정보를 기반으로 상기 복수의 영상 중 적어도 일부를 상기 기준대상 객체와 관련된 제1 영상 그룹으로 클러스터링하는 단계; 및 상기 제1 영상 그룹에 포함된 영상들의 촬영위치 정보 및 장소태그 정보 중 적어도 하나를 기반으로 상기 제1 영상 그룹에 포함된 영상들 중 적어도 일부를 제2 영상 그룹으로 클러스터링하는 단계를 포함할 수 있다.

본 발명의 다양한 실시예에 따라 특징점 추출, 촬영위치 정보 및 장소태그 정보를 융합하여 복수의 영상을 클러스터링함으로써, 특정 기준(예: 장소)에 따라 복수의 영상을 효율적이고 정확하게 분류할 수 있다는 효과가 있다.

또한, 미리 설정된 알고리즘에 따라 위치 정보 및 태그 정보를 선택적으로 고려함으로써 신뢰성있는 클러스터링 동작을 수행할 수 있다는 효과가 있다.

나아가, 영상에 포함된 영상 객체 추출시 실제 영상에서 노출되는 시간을 고려하여 영상 객체를 추출함으로써, 촬영자와 검색자가 모두 의도한 방향으로 영상을 효과적으로 분류할 수 있다는 효과가 도출될 수 있다.

도 1은 본 발명의 다양한 실시예에 따른 하이브리드 기반의 영상 클러스터링 시스템에 대한 구성도이다.
도 2는 본 발명의 다양한 실시예에 따른 서버에 대한 구성도이다.
도 3은 본 발명의 다양한 실시예에 따른 서버에서 하이브리드 기반으로 영상을 클러스터링하는 동작을 나타내는 흐름도이다.
도 4는 본 발명의 다양한 실시예에 따른 서버에서 클러스터 변수를 기반으로 영상을 클러스터링하는 동작을 나타내는 흐름도이다.
도 5는 본 발명의 다양한 실시예에 따른 서버에서 클러스터 변수를 산출하는 동작을 구체적으로 나타내는 흐름도이다.
도 6은 본 발명의 다양한 실시예에 따른 서버에서 영상에 노출되는 시간을 기반으로 영상 객체를 추출하는 동작을 나타내는 흐름도이다.
도 7 내지 도 9는 본 발명의 다양한 실시예에 따라 영상의 클러스터링 과정을 전반적으로 도시하는 예시도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 문서에서 언급되는 “영상”은 동영상 또는 정지영상을 의미할 수 있으며, 영상 그 자체 또는 해당 영상이 컨텐츠화된 영상 정보(예: 파일)를 지칭할 수 있다.

또한, 본 문서에서 언급되는 “클러스터링”은 유사 특징점, 위치 정보 및 태그 정보에 기초하여 데이터(예: 영상)를 몇몇의 그룹으로 분류하는 동작을 총칭한다.

또한, 본 문서에서 언급되는 “객체”는 상기 영상의 프레임 또는 이미지 상에서 영상재생에 따라 노출되는 적어도 일부 영역을 의미할 수 있다. 이러한 객체는 예를 들어 인물, 장소, 건물 또는 배경 등과 같은 다양한 형태의 오브젝트일 수 있다.

또한, 본 문서에서 언급되는 “영상 객체”는 특징점 추출 영상을 분류하기 위해 특징점이 추출되는 객체를 의미할 수 있다. 이러한 영상 객체는 예를 들어, 영상의 특정 프레임, 이미지 또는 섬네일으로 구성될 수 있다.

이하, 첨부 도면을 참조하여 하이브리드 기반의 영상 클러스터링 방법 및 이를 운용하는 서버(200)에 대해 설명하도록 한다.

도 1은 본 발명의 다양한 실시예에 따른 하이브리드 기반의 영상 클러스터링 시스템(10)에 대한 구성도이다.

영상 클러스터링 시스템(10)은 사용자 장치(100), 서버(200) 및 네트워크(300)를 포함할 수 있다. 이러한 클러스터링 시스템(10)은 특징점 추출, 위치 정보 및 태그 정보를 기반으로 복수의 영상을 클러스터링하는 기능을 수행할 수 있다.

사용자 장치(100)는 네트워크(300)를 통해 서버(200)에 접속하여 상기 서버(200)에서 클러스터링된 영상들을 확인할 수 있는 다양한 형태의 전자 장치이다. 이러한 사용자 장치(100)는 예컨대, 스마트폰(smartphone), 태블릿(tablet), 이동 전화기(mobile phone), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어 또는 웨어러블 장치(wearable device) 중 어느 하나일 수 있다.

서버(200)는 복수의 영상을 하이브리드 기반으로 클러스터링하는 기능을 수행하며, 클러스터링 동작과 관련된 집약적인 기능을 서비스하는 전자 장치 또는 프로그램이다. 이러한 서버(200)의 구체적인 구성에 대해서는 도 2에서 후술하도록 한다.

네트워크(300)는 통신 네트워크(telecommunications network)일 수 있다. 상기 통신 네트워크는 컴퓨터 네트워크(computer network), 인터넷(internet), 사물 인터넷(internet of things) 또는 전화망(telephone network) 중 적어도 하나를 포함할 수 있다. 다양한 실시예에 따르면, 사용자 장치(100), 서버(200) 및 네트워크(300)간의 통신을 위한 프로토콜(예: transport layer protocol, data link layer protocol 또는 physical layer protocol))은 어플리케이션, 어플리케이션 프로그래밍 인터페이스, 미들웨어, 커널 또는 통신 모듈 중 적어도 하나에서 지원될 수 있다.

도 2는 본 발명의 다양한 실시예에 따른 서버(200)에 대한 구성도이다.

다양한 실시예에 따르면, 서버(200)는 통신부(210), 제어부(220), 사용자 정보 관리부(221), 영상객체 추출부(223), 기준대상 제공부(225), 클러스터링 관리부(227) 및 저장부(230)를 포함할 수 있다. 한정되지 않는 실시예로서, 서버(200)는 도 1의 구성요소들 중 적어도 일부를 생략하거나 추가적인 구성요소를 더 구비할 수 있다.

통신부(210)은 사용자 장치(100)와 서버(200)간의 통신을 연결할 수 있다. 예를 들면, 상기 통신부(210)은 무선 통신 또는 유선 통신을 통해서 네트워크(300)에 연결되어 상기 사용자 장치(100)로 클러스터링된 영상들의 인터페이스 화면을 제공할 수 있다. 또한, 통신부(210)는 사용자 장치(100)로부터 영상의 클러스터링 동작과 관련되어 입력되는 신호를 수신하여 제어부(220)에 제공할 수 있다. 구체적으로 도시되어 있지 않으나, 이러한 통신부(210)은 네트워크(300)와 직접 연결될 수 있다.

제어부(220)는 서버(200)의 전원공급 제어 등과 같은 전반적인 동작 및 서버(200)의 내부 구성 간의 신호 흐름을 제어하고 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다. 제어부(220)는 적어도 하나의 프로세서를 포함할 수 있고, 이러한 프로세서는 중앙처리장치(central processing unit(CPU)), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)) 중 하나 또는 그 이상을 포함할 수 있다.

사용자 정보 관리부(221)는 사용자 장치(100)가 서버(200)에 접근하기 위해 필요한 인증 과정을 수행할 수 있다. 예를 들어, 사용자 정보 관리부(221)는 사용자가 영상 클러스터링 서비스를 제공받기 위한 회원 가입 및 로그인 화면을 사용자 장치(100)에 제공할 수 있으며, 상기 회원 가입 및 로그인 화면에서 입력되는 사용자 정보들을 수신하여 사용자 정보 DB(231)에 저장할 수 있다.

다음으로, 영상객체 추출부(223)는 복수의 영상에 대해서 각 영상에 포함된 영상 객체를 추출할 수 있다.

먼저, 영상객체 추출부(223)는 네트워크(300)를 통해 외부로부터 영상을 제공받거나 저장부(230)에 저장된 영상을 로드할 수 있다. 예를 들어, 영상객체 추출부(223)는 유튜브™와 같은 영상 콘텐츠 플랫폼 상에서 다양한 영상 데이터를 수집할 수 있으나 이에 한정하는 것은 아니다. 그리고, 영상객체 추출부(223)는 수집된 영상으로부터 영상 객체를 추출할 수 있다. 이러한 영상 객체는 예컨대, 섬네일, 이미지 또는 프레임 등으로 구성될 수 있다.

다양한 실시예에 따르면, 영상객체 추출부(223)는 상기 수집된 영상 재생 시에 노출되는 복수의 객체 중에서 가장 많은 시간 동안 노출되는 객체를 확인할 수 있고, 확인된 객체를 영상 객체로서 추출할 수 있다.

또한, 영상객체 추출부(223)는 추출된 영상 객체의 크기를 소정 크기로 축소 또는 확대할 수 있고, 영상 객체를 그레이 스케일 영상으로 변환하는 전처리 과정을 수행할 수 있다. 예를 들어, 영상객체 추출부(223)는 추출된 영상 객체를 147*173 pixels로 축소하고, 그레이 스케일(Grayscale) 영상으로 변환할 수 있다. 그리고, 영상객체 추출부(223)는 수집된 영상, 추출된 영상 객체 또는 전처리된 영상 객체를 클러스터링 관리부(227) 또는 저장부(230)에 전달할 수 있다.

다음으로, 기준대상 제공부(225)는 기준대상 객체를 수집할 수 있다. 이러한 기준대상 객체는 영상객체 추출부(223)에서 추출된 영상 객체와 이미지를 비교하기 위해서 기준대상 제공부(225)에서 설정될 수 있는 객체일 수 있다. 기준대상 제공부(225)는 네트워크(300) 또는 저장부(230)를 통해 상기 기준대상 객체를 로드하거나 제공받을 수 있으며, 준비된 기준대상 객체는 클러스터링 관리부(227) 또는 저장부(230)에 전달될 수 있다.

다음으로, 클러스터링 관리부(227)는 기준대상 객체 및 영상 객체의 특징점(Key point)을 추출할 수 있고, 기준대상 객체 및 영상 객체간의 유사 특징점 정보를 산출할 수 있다. 여기서, 유사 특징점 정보는 기준대상 객체에서 추출된 특징점에 대해서 영상 객체에서 추출된 특징점이 어느 정도 매칭되는지를 판단하는 정보(예: 특정 수치 값 또는 개수)일 수 있다. 또한, 유사 특징점 정보는 기준대상 객체를 통해 학습된 정보에 의해 영상 객체에서 추출되는 특징점 개수를 의미할 수도 있으며, 특징점 추출 시간을 더 포함할 수도 있다.

클러스터링 관리부(227)는 다양한 종류의 이미지 특징 분류기를 이용하여 기준대상 객체와 영상 객체 각각의 특징점을 추출할 수 있다. 한정되지 않는 예로서, 클러스터링 관리부(227)는 SURF(Speed Up Robust Features) 방식의 이미지 특징 분류기를 이용하여 기준대상 객체 및 영상 객체의 특징 벡터를 추출할 수 있으나 이에 한정하는 것은 아니다.

그리고, 클러스터링 관리부(227)는 기준대상 객체에서 학습된 특징점을 기반으로 영상 객체의 유사 특징점 정보(예: 영상 객체에서 추출된 특징점 개수)를 산출할 수 있다. 몇몇 실시예에 따르면, 클러스터링 관리부(227)는 산출된 유사 특징점 정보를 기반으로 복수의 영상 중 기준대상 객체와 관련된 적어도 하나의 영상을 제1 영상 그룹으로 클러스터링할 수 있다. 이러한 제1 영상 그룹은 수집된 복수의 영상들 중 영상 객체의 유사 특징점 정보가 미리 설정된 조건(예: 특정 개수 이상의 특징점 개수)을 충족하는 영상들의 그룹일 수 있다. 다만, 이에 한정하는 것은 아니며, 미리 설정된 조건은 서버(200)의 관리자 또는 시스템 정책에 따라 다양하게 설정될 수 있다.

또한, 클러스터링 관리부(227)는 제1 영상 그룹에 포함된 영상들의 위치 정보(예: 촬영위치 정보) 및 태그 정보(예: 장소태그 정보)를 확인할 수 있고, 확인된 정보를 기반으로 상기 제1 영상 그룹에 포함된 영상들 중 적어도 하나를 제2 영상 그룹으로 클러스터링할 수 있다. 또한, 클러스터링 관리부(227)는 위치정보 및 태그 정보를 기반으로 클러스터 변수를 산출할 수 있고, 산출된 클러스터 변수를 이용하여 제2 영상 그룹으로 클러스터링할 수 있다. 이러한 클러스터링의 구체적인 동작에 대해서는 후술하도록 한다.

한편, 영상으로부터 수집될 수 있는 메타데이터는 영상의 제목, 종류, 크기, 해상도, 회전, 제조사, 모델, 초점거리, GPS 신호에 의한 좌표정보(예: 촬영위치 정보), 태그, 촬영일시 또는 이미지 등이 포함될 수 있다. 여기서, 영상의 크기, 해상도, 제조사, 모델, 초점거리, GPS 신호등에 의한 좌표 정보는 물리적인 장치에 의해서 자동으로 부여되는 것이며, 영상의 촬영 장소, 제목 정보 및 특정장면에 대한 제목 등은 촬영자가 임의로 입력한 태그일 수 있다. 본 발명의 다양한 실시예에 따른 서버(200)는 이러한 메타데이터 중 (촬영)위치 정보 및 장소태그 정보를 전술한 이미지 특징 분류기 방식(예: 특징점 추출 방식)과 융합하여 클러스터링 동작을 수행할 수 있으며, 구체적인 분류 알고리즘을 더 이용할 수 있다.

전술한 사용자 정보 관리부(221), 영상객체 추출부(223), 기준대상 제공부(225) 및 클러스터링 관리부(227)는 제어부(220)의 적어도 일부 기능들을 상기 제어부(220)의 일반적인 기능들과 구별하기 위해 별도로 도시한 기능적인 구성일 수 있다. 도 2에서 상기 사용자 정보 관리부(221), 영상객체 추출부(223), 기준대상 제공부(225) 및 클러스터링 관리부(227)는 제어부(220)와 별도의 구성으로 도시되어 있으나, 본 발명의 다양한 실시예가 이에 한정하는 것은 아니다. 예를 들어, 사용자 정보 관리부(221), 영상객체 추출부(223), 기준대상 제공부(225) 및 클러스터링 관리부(227)는 상기 제어부(220)와 하나의 모듈로서 구성될 수도 있다.

또한, 사용자 정보 관리부(221), 영상객체 추출부(223), 기준대상 제공부(225), 클러스터링 관리부(227) 및 제어부(220)의 기능은 저장부(230, 예: 메모리)에 저장된 루틴, 명령어(instruction) 또는 프로그램의 형태로 구현될 수 있다. 즉, 사용자 정보 관리부(221), 영상객체 추출부(223), 기준대상 제공부(225), 클러스터링 관리부(227) 및 제어부(220)의 각 구성에서 수행되는 동작들은 저장부(230)에 저장된 루틴, 명령어 또는 프로그램이 프로세서의 제어하에 수행됨으로써 구현될 수 있다.

또한, 상기와 동작들을 수행하도록 형성된 루틴, 명령어 또는 프로그램은 컴퓨터로 읽을 수 있는 저장매체에도 저장될 수 있다. 이러한 저장매체는 컴퓨터 시스템에 의하여 읽혀질 수 있도록 프로그램 및 데이터가 저장되는 모든 종류의 저장매체를 포함한다. 그 예로는, 롬(Read Only Memory), 램(Random Access Memory), CD(Compact Disk), DVD(Digital Video Disk)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치, 플래쉬 메모리 장치 등이 포함될 수 있다. 또한, 이러한 저장매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

저장부(230)는 제어부(220), 서버(200) 또는 영상 클러스터링 시스템(10)의 다른 구성요소들로부터 수신되거나 생성된 데이터를 저장할 수 있다. 저장부(230)는 예를 들어, 메모리(memory), 캐시(cash), 버퍼(buffer) 등을 포함할 수 있으며, 소프트웨어, 펌웨어, 하드웨어 또는 이들 중 적어도 둘 이상의 조합으로 구성될 수 있다.

다양한 실시예에 따르면, 저장부(230)는 사용자 정보 DB(231), 영상정보 DB(233) 및 기준대상 DB(235)를 포함할 수 있다.

사용자 정보 DB(231)는 사용자 장치(100)로부터 회원 가입 또는 로그 인과 같은 인증 과정에서 수신되는 사용자의 개인 정보(예: 아이디, 비밀번호, 주소, 핸드폰 번호 등)를 저장할 수 있다.

영상정보 DB(233)는 영상객체 추출부(223) 및 기준대상 제공부(225)에서 제공된 영상 또는 영상 객체를 저장할 수 있다. 그리고, 기준대상 DB(235)는 기준대상 제공부(225)로부터 제공된 기준대상 객체를 저장할 수 있다.

또한, 저장부(230)는 클러스터링 동작에 따라 추출, 생성 또는 산출되는 제1 영상 그룹, 제2 영상 그룹, 클러스터 변수, 신뢰도 및 가중치 정보를 저장할 수 있다.

이러한 사용자 정보 DB(231), 영상정보 DB(233) 및 기준대상 DB(235)는 저장부(230)상에서 구분되는 것으로 도시되어 있으나, 사용자 정보 DB(231), 영상정보 DB(233), 기준대상 DB(235) 및 저장부(230)는 하나로 구성될 수도 있다.

도 3은 본 발명의 다양한 실시예에 따른 서버에서 하이브리드 기반으로 영상을 클러스터링하는 동작을 나타내는 흐름도이다.

다양한 실시예에 따르면, S310 단계에서, 서버(200)는 복수의 영상에 포함된 영상 객체를 추출할 수 있다. 예를 들어, 서버(200)는 각 영상에 포함된 섬네일 이미지 등을 해당 영상을 분류하기 위해 비교되는 영상 객체로서 추출할 수 있다.

다음으로, S330 단계에서, 서버(200)는 미리 설정된 기준대상 객체와 추출된 영상 객체간의 유사 특징점 정보를 산출할 수 있다.

구체적으로, 서버(200)는 클러스터링의 분류기준이 되는 기준대상 객체를 선정할 수 있고, 선정된 기준대상 객체를 기계 학습할 수 있다. 그리고, 서버(200)는 각 영상 객체에 대해서도 상기 기계 학습을 수행할 수 있다. 이러한 기계 학습은 예를 들어, SURF(Speed Up Robust Features) 방식의 이미지 특징 분류기를 이용하여 기준대상 객체 및 영상 객체의 특징 벡터(예: 특징점)를 추출함으로써 수행될 수 있으나 이에 한정하는 것은 아니다.

다음으로, S350 단계에서, 서버(200)는 유사 특징점 정보를 기반으로 복수의 영상들 중 적어도 일부 영상을 제1 영상 그룹으로 클러스터링할 수 있다. 예컨대, 서버(200)는 기준대상 객체 및 영상 객체 상호간 일치하는 특징점의 개수를 유사 특징점 정보로 산출할 수 있고, 소정 개수 이상의 특징점이 추출된 조건이 충족하는지 여부를 기초로 복수의 영상 중 적어도 하나의 영상을 제1 영상 그룹으로 클러스터링할 수 있다.

다음으로, S370 단계에서, 서버(200)는 촬영위치 정보 및 장소태그 정보 중 적어도 하나를 기반으로 상기 제1 영상 그룹의 영상들 중 적어도 하나를 제2 영상 그룹으로 클러스터링할 수 있다. 이 경우, 서버(200)는 클러스터 변수를 기반으로 촬영위치 정보 및 장소태그 정보 중 어느 하나를 우선적으로 고려하여 제1 영상 그룹의 영상들 중 적어도 일부를 제2 영상 그룹으로 클러스터링할 수 있다.

도 3에서, 서버(200)는 유사 특징점 정보를 기반으로 제1 영상 그룹 클러스터링 후, 촬영위치 정보 및 장소태그 정보를 기반으로 상기 제1 영상 그룹 내에서 제2 영상 그룹을 클러스터링하는 것으로 설명되었으나 이에 한정하는 것은 아니다. 한정되지 않는 예로서, 서버(200)는 촬영위치 정보 및 장소태그 정보를 기반으로 복수의 영상들 중 적어도 일부를 제1 영상 그룹으로 먼저 클러스터링할 수 있고, S310 단계 내지 S350 단계의 동작과 같은 이미지 특징 분류기 방식(예: 특징점 추출 방식)을 통해 상기 제1 영상 그룹 내의 영상들 중 적어도 하나를 제2 영상 그룹으로 클러스터링할 수도 있다.

도 4는 본 발명의 다양한 실시예에 따른 서버(200)에서 클러스터 변수를 기반으로 영상을 클러스터링하는 동작을 나타내는 흐름도이고, 도 5는 클러스터 변수를 산출하는 동작을 구체적으로 나타내는 흐름도이다. 이러한 도 5의 각 단계들은 도 4의 S430 단계의 예시일 수 있다.

다양한 실시예에 따르면, S410 단계에서, 서버(200)는 특징점 추출 방식을 이용하여 복수의 영상들 중 적어도 일부를 제1 영상 그룹으로 클러스터링할 수 있다. 이러한 S410 단계의 구체적인 동작은 도 3에서 전술하였으므로 구체적인 설명은 생략하도록 한다.

다음으로, S430 단계에서, 서버(200)는 촬영위치 정보 및 장소태그 정보 중 적어도 하나를 기반으로 클러스터 변수를 산출할 수 있다. 그리고, S450 단계에서, 서버(200)는 산출된 클러스터 변수를 기반으로 제2 영상 그룹을 클러스터링할 수 있다. 한정되지 않는 예로서, 클러스터 변수는 제1 영상 그룹의 영상들에 포함된 정보가 서로 모순되는 형태인 경우, 어떤 정보를 더 우선하여 해당 영상들을 제2 영상 그룹으로 클러스터링할지를 선택하기 위해 사용되는 파라미터일 수 있다.

구체적으로, S510 단계에서, 서버(200)는 각 영상의 촬영위치 정보에 따른 제1 신뢰도를 산출할 수 있고, S530 단계에서 각 영상의 장소태그 정보에 따른 제2 신뢰도를 산출할 수 있다. 그리고, S550 단계에서 서버(200)는 제1 신뢰도 및 제2 신뢰도를 기반으로 클러스터 변수를 산출할 수 있다.

예를 들어, 분류하고자 하는 기준대상 객체가 “남대문”이고, 제1 영상 그룹에 포함된 특정 영상(예: 영상 A)의 촬영위치 정보가 남대문의 위치인 북위 37.55997도, 동경 126.975304도이며, 상기 제1 영상에 태깅된 장소태그 정보가 “동대문”으로 되어 있는 경우를 가정하도록 한다. 상기 가정에서 서버(200)의 관리자는 실제 “남대문”에 해당하는 영상들을 제2 영상 그룹으로 분류하고자 하나, 상기 영상 A의 촬영위치 정보는 “남대문”의 위치를 나타내는 반면 장소태그 정보는 “동대문”으로 나타나기 때문에 클러스터링시 오류가 발생하게 된다.

전술한 바와 같이, 촬영위치 정보는 물리적인 장치에서 입력되는 메타데이터이고, 장소태그 정보는 촬영자 또는 영상에 대한 태깅(협력 태깅)한 제3자에 의해 입력되는 임의적인 메타데이터이다. 촬영자 또는 제3자는 영상 A의 장소 또는 건물 등의 정보를 오해하거나 인식하지 못할 수 있으므로, 기계적인 수치로 인식되는 촬영위치 정보(예: GPS 정보)가 더 정확할 수 있다. 따라서, 서버(200)는 장소태그 정보에 따른 신뢰도(예: 제2 신뢰도)보다 촬영위치 정보에 따른 신뢰도(예: 제1 신뢰도)를 더 높이 산출할 수 있다.

이에 따라, 서버(200)는 상기 영상 A에 대해서 촬영위치 정보가 존재하므로 상기 촬영위치 정보 항목에 +10의 신뢰도를 산출할 수 있고, 상기 영상 A에 대한 장소태그 정보 또한 존재하므로, 상기 장소태그 정보 항목에 +2의 신뢰도를 산출할 수 있다. 그리고, 서버(200)는 촬영위치 정보와 장소태그 정보가 동일한 장소를 지칭하는지를 판단하고, 동일하지 않은 경우, 촬영위치 정보 항목이 장소태그 정보 항목보다 +8만큼 더 높다는 “촬영위치 정보 항목(+8)”의 클러스터 변수를 산출할 수 있다. 그러면, 서버(200)는 영상 A의 촬영위치 정보 항목인 “남대문”을 확인하고, 상기 영상 A를 “남대문”에 해당하는 제2 영상 그룹으로 클러스터링할 수 있다.

또한, 몇몇 실시예에 따르면 영상의 장소태그 정보가 복수 개인 경우, 서버(200)는 장소태그 정보가 상기 영상을 촬영한 촬영자에 의해 기록된 장소태그 정보인지, 아니면 제3자에 의해 기록된 장소태그 정보인지를 확인할 수 있다.

예를 들어, 특정 영상(예: 영상 B)에 대하여 기록된 태그 정보(예: 장소태그 정보)가 “남대문”과 “동대문”2개가 기록되어 있는 경우, 서버(200)는 해당 태그 정보를 분석하여 각각의 태그 정보가 촬영자가 기록하였는지 또는 촬영자가 아닌 제3자가 기록하였는지를 분석할 수 있다. 이를 위해, 서버(200)는 영상 B에 기록된 메타데이터를 확인하여 상기 태그 정보의 로그 기록을 확인할 수 있다.

그리고, 서버(200)는 장소태그 정보에 따른 제2 신뢰도 산출 시 상기 확인된 결과에 따라 가중치를 부과하여 제2 신뢰도를 산출할 수 있다. 상대적으로, 특정 장소를 직접 촬영한 촬영자에 의해 기록된 태그 정보는 업로드된 영상만을 확인한 제3자에 의해 기록된 태그 정보보다 더 신뢰성이 있다고 볼 수 있다. 따라서, 서버(200)는 장소태그 정보가 촬영자에 의해 기록된 장소태그 정보인 경우, 제3자에 의해 기록된 경우보다 더 높은 가중치를 부여하여 제2 신뢰도를 산출할 수 있다.

추가적인 실시예에 따르면, 서버(200)는 SVM(Support Vector Machine) 분류기와 같은 위치좌표 분류기를 이용하여 영상 객체로부터 추출한 특징 벡터(예: 특징점)을 촬영영상 장소에 대하여 분류할 수 있다. 이 경우, 2차 프로그래밍(Quadratic Programming Problem)의 해로 널리 사용되는 SMO(Sequential Mininal Optimization) 방식의 SVM(Support Vector Machine)을 사용할 수 있다. SVM은 기계 학습의 분야 중 하나로서, 패턴 인식, 자료 분석을 위한 지도 학습 모델이며, 주로 분류와 회귀 분석을 위해 사용된다. 예를 들어, 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, SVM 알고리즘은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 생성할 수 있다. 따라서, 서버(200)는 영상 촬영과 동시에 입력받은 촬영위치 정보(예: GPS 데이터)를 SVM 분류시 가중치로 사용할 수 있다. 서버(200는 이러한 촬영위치 정보를 획득하기 위해, 영상의 EXIF(Exchangeable Image File Format) 메타 데이터에 기록되어 있는 도, 분, 초 단위의 위치 정보(예: GPS 데이터)를 추출할 수 있다.

상기와 같은 미리 설정된 알고리즘에 따라 위치 정보 및 태그 정보를 선택적으로, 병합적으로 또는 우선적으로 고려함으로써, 본 발명의 다양한 실시예에 따른 서버(200)는 보다 신뢰성있는 클러스터링 결과를 도출할 수 있다.

도 6은 본 발명의 다양한 실시예에 따른 서버(200)에서 영상에 노출되는 시간을 기반으로 영상 객체를 추출하는 동작을 나타내는 흐름도이다. 이러한 도 6의 각 단계들은 도 3의 S310 단계의 예시일 수 있다.

다양한 실시예에 따르면, S610 단계에서 서버(200)는 영상에 포함된 객체의 노출시간을 확인할 수 있고, S620 단계에서 가장 많은 시간 동안 노출되는 객체를 영상 객체로서 추출할 수 있다.

구체적으로, 서버(200)는 특정 영상이 재생되는 동안 노출되는 객체들을 확인할 수 있고, 각 객체가 노출되는 시간을 체크할 수 있다. 그리고, 서버(200)는 가장 많은 시간 동안 노출되는 객체를 영상 객체(예: 섬네일 이미지)로서 추출할 수 있고, 추출된 영상 객체를 클러스터링할 수 있다. 이에 의해, 특정 영상에 포함된 객체(예: 장소 또는 건물 등)가 다수개인 경우 어떠한 이미지가 상기 특정 영상에서 중점적으로 촬영되었는지가 확인될 수 있다. 그렇게 함으로써, 서버(200)의 관리자, 촬영자 및 검색자가 모두 의도한 방향으로 상기 특정 영상이 효과적으로 클러스터링될 수 있다.

도 7 내지 도 9는 본 발명의 다양한 실시예에 따라 영상의 클러스터링 과정을 전반적으로 도시하는 예시도이다.

먼저, 도 7을 참조하면 본 발명의 다양한 실시예에 따른 실험데이터로서 한국의 동양건축물(경복궁, 남대문, 수원 화성, 진주성, 창덕궁, 덕수궁)에 대한 총 6개 비디오의 섬네일 이미지가 영상 객체로서 사용된다. 그리고, 각각의 영상 객체 1 내지 6은 도 7과 같이 촬영위치 정보(위도, 경도) 및 태그 정보를 포함한다.

분류하고자 하는 기준대상 객체는 도 8과 같이 남대문이 선정된다. 그리고, 서버(200)는 기준대상 객체인 남대문의 이미지(801) 및 영상 객체를 기계학습 시킨 후 특징점, 촬영위치 정보, 위치태그 정보를 추출할 수 있다. 이때, 서버(200)는 이미지 특징점 추출을 위해 오픈소스 프로젝트인 SURF OpenCV 2.4.10을 사용할 수 있으나 이에 한정하는 것은 아니다.

남대문의 이미지(801)를 기계학습 시킨 후 영상 객체의 특징점을 추출한 결과, 서버(200)는 도 9와 같이 유사 특징점 정보(예: 특징점 개수)를 추출할 수 있다. 이 경우, 유사 특징점 정보는 추출된 시간 정보를 포함할 수 있다.

상기 추출된 결과가 도시된 도 9를 참조하면, 영상 객체 2, 영상 객체 3 및 영상 객체 6에서 가장 많은 특징점 개수(48개)가 추출된 것을 확인할 수 있다. 따라서, 서버(200)는 영상 객체 2, 영상 객체 3 및 영상 객체 6 각각에 해당하는 영상들을 제1 영상 그룹으로 클러스터링할 수 있다.

그리고, 서버(200)는 제1 영상 그룹으로 클러스터링된 영상 객체 2, 영상 객체 3 및 영상 객체 6의 촬영위치 정보 및 장소태그 정보를 확인할 수 있다. 이 경우, 서버(200)는 장소태그 정보로서 숭례문(남대문을 지칭하는 다른 용어), 남대문을 포함하고, 남대문의 촬영위치 정보(예: GPS 정보)를 가지는 영상 객체 2를 기준대상 객체에 대한 제2 영상 그룹으로 클러스터링할 수 있다.

상기와 같은 클러스터링 동작에 의해, 본 발명의 다양한 실시예에 따라 특징점 추출, 촬영위치 정보 및 장소태그 정보를 융합하여 복수의 영상을 클러스터링함으로써, 특정 기준(예: 장소)에 따라 복수의 영상을 효율적이고 정확하게 분류할 수 있다.

본 발명의 다양한 실시예에 사용된 용어 “모듈”또는 “~부”는, 예를 들어, 하드웨어, 소프트웨어 또는 펌웨어(firmware) 중 하나 또는 둘 이상의 조합을 포함하는 단위(unit)를 의미할 수 있다. “모듈” 또는 “~부”는 예를 들어, 유닛(unit), 로직(logic), 논리 블록(logical block), 부품(component) 또는 회로(circuit) 등의 용어와 바꾸어 사용(interchangeably use)될 수 있다. “모듈” 또는“~부”는 일체로 구성된 부품의 최소 단위 또는 그 일부가 될 수 있고, 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수도 있다. “모듈” 또는“~부”는 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들면, 본 발명의 다양한 실시예에 따른 “모듈” 또는“~부”는, 알려졌거나 앞으로 개발될, 어떤 동작들을 수행하는 ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays) 또는 프로그램 가능 논리 장치(programmable-logic device) 중 적어도 하나를 포함할 수 있다.

본 발명의 다양한 실시예에 따른 모듈 또는 프로그래밍 모듈은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 본 발명의 다양한 실시예에 따른 모듈, 프로그래밍 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

10: 영상 클러스터링 시스템 100: 사용자 장치
200: 서버 300: 네트워크

Claims

서버에서 하이브리드 기반으로 영상을 클러스터링하는 방법으로서,
복수의 영상에 대해서 각 영상에 포함된 영상 객체를 추출하는 단계;
미리 설정된 기준대상 객체와 상기 추출된 각 영상 객체간의 유사 특징점 정보를 산출하는 단계;
상기 유사 특징점 정보를 기반으로 상기 복수의 영상 중 적어도 일부를 상기 기준대상 객체와 관련된 제1 영상 그룹으로 클러스터링하는 단계;
상기 제1 영상 그룹에 포함된 영상들의 촬영위치 정보 및 장소태그 정보 중 적어도 하나를 기반으로 상기 제1 영상 그룹에 포함된 영상들 중 적어도 일부를 제2 영상 그룹으로 클러스터링하는 단계; 및
상기 촬영위치 정보 및 장소태그 정보 중 적어도 하나를 기반으로 상기 복수의 영상에 대한 각각의 클러스터 변수를 산출하는 단계를 포함하고,
상기 제2 영상 그룹으로 클러스터링하는 단계는,
상기 산출된 클러스터 변수를 기반으로 촬영위치 정보 및 장소태그 정보 중 어느 하나를 우선적으로 고려하여 상기 제2 영상 그룹으로 클러스터링하는 단계를 포함하며,
상기 클러스터 변수를 산출하는 단계는,
각 영상과 관련된 촬영위치 정보에 따른 제1 신뢰도를 산출하는 단계;
각 영상의 장소태그 정보에 따른 제2 신뢰도를 산출하는 단계; 및
상기 제1 신뢰도 및 상기 제2 신뢰도를 기반으로 상기 클러스터 변수를 산출하는 단계를 포함하고, 상기 제1 신뢰도는 상기 제2 신뢰도보다 더 높은 신뢰도를 가지며,
상기 영상의 장소태그 정보가 복수 개인 경우, 상기 제2 신뢰도를 산출하는 단계는,
상기 장소태그 정보가 상기 영상을 촬영한 촬영자에 의해 기록된 장소태그 정보인지 제3자에 의해 기록된 장소태그 정보인지를 확인하는 단계; 및
확인된 결과에 따라 가중치를 부여하여 상기 제2 신뢰도를 산출하는 단계를 포함하고,
상기 장소태그 정보가 상기 촬영자에 의해 기록된 장소태그 정보인 경우, 상기 제3자에 의해 기록된 경우보다 더 높은 가중치를 부여하여 상기 제2 신뢰도를 산출하는 것을 특징으로 하는, 영상 클러스터링 방법.
삭제
삭제
삭제
제 1항에 있어서,
상기 복수의 영상에 대해서 각 영상에 포함된 영상 객체를 추출하는 단계는,
상기 영상에서 노출되는 복수의 객체 중 가장 많은 시간 동안 노출되는 객체를 상기 영상 객체로서 추출하는 단계를 포함하는, 영상 클러스터링 방법.
하이브리드 기반의 영상 클러스터링을 운용하는 서버로서,
복수의 영상에 대해서 각 영상에 포함된 영상 객체를 추출하는 영상객체 추출부;
기준대상 객체를 학습하는 기준대상 제공부; 및
상기 학습된 기준대상 객체와 상기 추출된 각 영상 객체간의 유사 특징점 정보를 산출하고, 상기 유사 특징점 정보를 기반으로 상기 복수의 영상 중 적어도 일부를 상기 기준대상 객체와 관련된 제1 영상 그룹으로 클러스터링하며, 상기 제1 영상 그룹에 포함된 영상들의 촬영위치 정보 및 장소태그 정보 중 적어도 하나를 기반으로 상기 제1 영상 그룹에 포함된 영상들 중 적어도 일부를 제2 영상 그룹으로 클러스터링하는 클러스터링 관리부;
를 포함하고,
상기 클러스터링 관리부는,
상기 촬영위치 정보 및 장소태그 정보 중 적어도 하나를 기반으로 상기 복수의 영상에 대한 각각의 클러스터 변수를 산출하고, 상기 산출된 클러스터 변수를 기반으로 촬영위치 정보 및 장소태그 정보 중 어느 하나를 우선적으로 고려하여 상기 제2 영상 그룹으로 클러스터링하며,
각 영상과 관련된 촬영위치 정보에 따른 제1 신뢰도를 산출하고, 각 영상의 장소태그 정보에 따른 제2 신뢰도를 산출하며, 상기 제1 신뢰도 및 상기 제2 신뢰도를 기반으로 상기 클러스터 변수를 산출하되 상기 제1 신뢰도는 상기 제2 신뢰도보다 더 높은 신뢰도를 가지며,
상기 영상의 장소태그 정보가 복수 개인 경우, 상기 장소태그 정보가 상기 영상을 촬영한 촬영자에 의해 기록된 장소태그 정보인지 제3자에 의해 기록된 장소태그 정보인지를 확인하고, 확인된 결과에 따라 가중치를 부여하여 상기 제2 신뢰도를 산출하며, 상기 장소태그 정보가 상기 촬영자에 의해 기록된 장소태그 정보인 경우, 상기 제3자에 의해 기록된 경우보다 더 높은 가중치를 부여하여 상기 제2 신뢰도를 산출하는 것을 특징으로 하는 서버.
삭제
삭제
삭제
제 6항에 있어서,
상기 영상객체 추출부는,
상기 영상에서 노출되는 복수의 객체 중 가장 많은 시간 동안 노출되는 객체를 상기 영상 객체로서 추출하는 것을 특징으로 하는 서버.