KR101643979B1 - 비디오 컨텐츠 증강 방법 - Google Patents

비디오 컨텐츠 증강 방법 Download PDF

Info

Publication number
KR101643979B1
KR101643979B1 KR1020150094241A KR20150094241A KR101643979B1 KR 101643979 B1 KR101643979 B1 KR 101643979B1 KR 1020150094241 A KR1020150094241 A KR 1020150094241A KR 20150094241 A KR20150094241 A KR 20150094241A KR 101643979 B1 KR101643979 B1 KR 101643979B1
Authority
KR
South Korea
Prior art keywords
video
video content
content
enhancing
analysis
Prior art date
Application number
KR1020150094241A
Other languages
English (en)
Inventor
남윤영
노승민
폴 아난드
첸 보웨이
웬지
Original Assignee
순천향대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 순천향대학교 산학협력단 filed Critical 순천향대학교 산학협력단
Priority to KR1020150094241A priority Critical patent/KR101643979B1/ko
Application granted granted Critical
Publication of KR101643979B1 publication Critical patent/KR101643979B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • G06F17/30781
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • H04N13/0007

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 비디오 컨텐츠 증강방법에 관한 것이다.
본 발명의 특징은 입력된 비디오 컨텐츠를 구조화하는 제1단계, 구조화된 비디오 컨텐츠를 소셜 네트워크 분석을 통해 증강하는 제2단계로 나눠지고, 제1단계에서는 비디오 컨텐츠로부터 비주얼 프레임을 추출하고, 비디오 컨텐츠와 연관된 텍스트 데이터로부터 추출된 연관 키워드를 최대 엔트로피 분석을 이용하여 링킹하는 제1-1단계, 연관 키워드를 4개의 엔티티로 분류하는 제1-2단계, 비디오 컨텐츠에서 비주얼 오브젝트 및 오디오 이벤트를 인식하고, 인식된 상기 비주얼 오브젝트 및 오디오 이벤트에 대해 메타데이터 인덱싱을 수행하는 1-3단계를 포함하고 있고, 제2단계에서는 비디오 컨텐츠와 관련된 메타데이터를 기반으로 소셜 네트워크를 구축하는 제2-1단계, 비디오 컨텐츠와 관련된 비디오 클러스터를 선택하기 위해 마르코프 클러스터링 알고리즘을 적용하는 제2-2단계, 선택된 비디오 클러스터에서 일정 의존도 순위 내의 클러스터를 증강 컨텐츠로 선택하고, 선택된 증강 컨텐츠에 대해 메타데이터 인덱싱을 수행하는 제2-3단계를 포함하되, 상기 추출된 비주얼 프레임은 6 x 6 블록으로 분할되고, 상기 블록의 모션 벡터, 위치, 텍스처, 색상으로부터 계산된 2, 3차원 특징 벡터로 표시된다.

Description

비디오 컨텐츠 증강 방법{Method For Augmenting Video Content}
본 발명은 비디오 컨텐츠를 증강하는 기술에 관한 것으로서, 더 상세하게는 시맨틱 구조 및 소셜 네트워크 분석을 통하여 비디오 컨텐츠를 구조화하고 증강함으로써, 주문형 비디오 서비스 분야와 같이 대량의 비디오 컨텐츠 중에서 원하는 비디오를 정확하게 검색하거나 체계적으로 관리할 수 있도록 하는 비디오 컨텐츠 증강 방법에 관한 것이다.
온라인 스트리밍 비디오가 우리 삶에 크게 가까워짐에 따라, 사람들은 더 이상 전통적인 텔레비전 방송에 크게 의존하지 않게 되었다. 예를 들어, 유튜브(Youtube), 비메오(Vimeo), 데일리모션(Dailymotion) 등의 온라인 미디어 웹 사이트, 및 주문형 비디오 서비스를 제공하는 셋톱박스 시스템에 의해 대량의 비디오 컨텐츠가 공급되고 있다. 이 경우, 각각의 비디오 컨텐츠에는 사용자가 원하는 비디오 컨텐츠를 검색하고 선택하기 위한 메타데이터가 포함된다. 이러한 메타데이터를 생성하여 비디오 컨텐츠와 대응시키는 많은 연구가 제안되어 있다.
가장 기본적인 방법은 컬러 및 특징(feature) 유사성 계산하는 것으로 예를 들어, 장면(scenes)이나 샷(shots)과 같은 비디오 구조를 구축하기 위한 변환 과정과 결합된 서로 다른 컬러 공간을 사용한 연구가 있다. 이 연구는 계층적 인터페이스를 제안하는데, 사용자들로 하여금 데이터베이스 레벨 단일 비디오 레벨로부터 키 프레임 클러스터 레벨에 이르기까지 잠재적으로 유용한 또는 관련된 비디오를 식별할 수 있게 한다. 이 툴은 사용자들에게 선택된 프레임들에 대한 팝업 캡션, 하이라이트된 인터벌, 및 시간 인덱스를 제공한다. 다른 관련 연구로는 프레임들 사이의 공통 정보를 검출함으로써 장면이나 샷을 모델링하는 알고리즘과 시각적인 및 시간적인 성질에 기초하여 키-프레임들 사이의 유사성 매트릭스(similarity matrices)를 계산하기 위해 저-레벨 피처들을 이용하는 것이다 있다. 이는 유사성 매트릭스를 분석하기 위하여 스펙트럼 클러스터링(spectral clustering)을 적용하는데, 이 경우 유사한 프레임들은 각각의 특징 거리에 기초하여 그룹화된다.
비디오의 메타데이터 구조가 주로 비주얼 유사성에 기초하여 생성되는 경우에는, 비디오를 시맨틱 분류(semantic classification)에 의한 증강 과정이 부족하기 때문에, 사용자가 쉽게 원하는 비디오를 검색하기 어렵다는 문제가 발생한다. 이러한 문제를 완화하기 위하여, 주석(annotations) 부가와 같은 기술이 개발되고 있다. 예를 들면, 링킹 그래프(linking graph)를 이용하여 시각-기반 시스템을 확장하는데, 이 경우 링킹 그래프의 각각의 정점은 관련 비디오의 조회 결과이다. 이 그래프는 또한 비디오 내에 언급된 위치의 지리적 분포를 표시할 수 있다. 다른 기술로는 프레젠테이션 비디오의 시각적인 화자 목록, 토픽 페이즈, 및 썸네일 등 다양한 단서의 인덱싱을 이용해 멀티타입 검색 능력을 강화시키는 것이 있고, 또 다른 비디오 브라우저는 비디오 내부의 컨텐츠표(table-of-content)를 이용하며 비디오 내의 텍스트 정보를 인식함으로써 데이터를 검색하기 위한 매핑 기술을 이용하는 것이 있다.
그러나, 비디오가 시맨틱하게 조직화되어 있다는 사실에도 불구하고, 비디오 컨텐츠는 여전히 시맨틱적으로 증강되는 기술이 없다는 문제는 여전히 존재한다.
이와 관련하여 미국등록특허 8781304에는 다중 컨텐츠 저장소를 이용하여 다양한 미디어 컨텐츠를 증강시키는 방법 및 시스템이 개시되어 있다.
본 발명이 해결하고자 하는 과제는 시맨틱 구조 및 소셜 네트워크 분석을 통하여 비디오 컨텐츠를 구조화하고 증강함으로써, 주문형 비디오 서비스 분야와 같이 대량의 비디오 컨텐츠 중에서 원하는 비디오를 정확하게 검색하거나 체계적으로 관리할 수 있도록 하는 비디오 컨텐츠 증강 방법를 제공함에 목적이 있다.
본 발명의 일실시예에 따른 시맨틱 개념과 소셜 멀티미디어 분석을 통한 비디오 컨텐츠 증강방법은 입력된 비디오 컨텐츠를 구조화하는 제1단계(110), 구조화된 비디오 컨텐츠를 소셜 네트워크 분석을 통해 증강하는 제2단계(120)를 포함한다.
상기 입력된 비디오 컨텐츠를 구조화하는 제1단계(110)는 상기 비디오 컨텐츠로부터 비주얼 프레임을 추출하고, 상기 비디오 컨텐츠와 연관된 텍스트 데이터로부터 추출된 연관 키워드를 최대 엔트로피 분석을 이용하여 링킹하는 제1-1단계(111); 상기 연관 키워드를 4개의 엔티티로 분류하는 제1-2단계(112); 상기 비디오 컨텐츠에서 비주얼 오브젝트 및 오디오 이벤트를 인식하고, 인식된 상기 비주얼 오브젝트 및 오디오 이벤트에 대해 메타데이터 인덱싱을 수행하는 1-3단계(113);를 포함한다.
상기 구조화된 비디오 컨텐츠를 소셜 네트워크 분석을 통해 증강하는 제2단계(120)는 상기 비디오 컨텐츠와 관련된 메타데이터를 기반으로 소셜 네트워크를 구축하는 제2-1단계(121); 상기 비디오 컨텐츠와 관련된 비디오 클러스터를 선택하기 위해 마르코프 클러스터링 알고리즘을 적용하는 제2-2단계(122); 상기 선택된 비디오 클러스터에서 일정 의존도 순위 내의 클러스터를 증강 컨텐츠로 선택하고, 상기 선택된 증강 컨텐츠에 대해 메타데이터 인덱싱을 수행하는 제2-3단계(123);를 포함하는 것을 특징으로 하는 시맨틱 개념과 소셜 멀티미디어 분석을 통한 비디오 컨텐츠 증강방법.
삭제
전술한 본 발명의 과제 해결 수단에 의하면, 시맨틱 구조 및 소셜 네트워크 분석을 이용하여 비디오 컨텐츠를 구조화하고 증강함으로써, 주문형 비디오 서비스 분야와 같이 대량의 비디오 컨텐츠 중에서 원하는 비디오를 정확하게 검색하거나 체계적으로 관리할 수 있도록 하는 비디오 컨텐츠 증강 방법가 제공될 수 있다.
또한 본 발명에 따르면, 구체화된 비디오 컨텐츠에 기반하여 "누가(Who)", "무엇을(What)", "어디서(Where)", "언제(When)"이라는 4개의 엔티티를 가진 프레임 워크가 제안된다. 제안된 프레임 워크에서, 시각적 오브젝트 및 오디오 이벤트를 포함하여, 상세한 시맨틱 메타데이터가 이들 엔티티들 사이에 부가되고 인덱싱될 수 있다.
더 나아가, 본 발명에 따르면, 컨텐츠를 증강하기 위하여, 관련 정보를 찾기 위하여 유투브 기반 소셜 네트워크 분석을 이용한다. 이에 따라 사용자는 원하는 컨텐츠를 쉽게 발견할 수 있다. 또한 주문형 비디오 시스템 제공자는 비디오를 효율적으로 관리할 수 있다.
도 1은 본 발명의 일 실시예에 따른 비디오 컨텐츠 증강 방법의 과정을 나타낸다.
도 2는 본 발명의 일 실시예에 따른 비디오 컨텐츠 증강 방법의 정점 그래프를 라인 그래프로 변환된 그래프 도시하고 있다.
도 3은 본 발명의 일 실시예에 따른 비디오 컨텐츠 증강 방법의 9개의 정점을 가진 그래프에 MCL을 적용하는 과정을 도시하고 있다.
이하, 첨부된 도면을 참조하여 본 발명에 대하여 자세히 살펴본다.
도 1은 본 발명의 일 실시예에 따른 비디오 컨텐츠 보강 방법의 과정을 나타낸다.
본 발명에 따른 비디오 컨텐츠 증강 방법이 수행되는 시스템(또는 장치)에 입력되는 비디오 컨텐츠는 유튜브와 같은 온라인 미디어 웹사이트에서 검색된 비디오 및 관련 스피치 트랜스크립트(speech transcripts)를 모두 포함하는 것일 수 있다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 비디오 컨텐츠 증강 방법은 크게 비디오 컨텐츠를 구조화하는 단계(110) 및 구조화된 비디오 컨텐츠를 소셜 네트워크 분석을 통하여 증가하는 단계(120)로 나눌 수 있다. 먼저 비디오 컨텐츠를 구조화하는 단계(110)에서는 비디오 컨텐츠로부터 추출된 시각적 프레임과 상기 비디오 컨텐츠와 관련되어 획득되는 텍스트 데이터로부터 추출된 연관 키워드를 최대 엔트로피 분석을 이용하여 연결시키는 단계(111); 연관 키워드를 "누가(Who)", "무엇을(What)", "어디서(Where)", "언제(When)"이라는 4개의 엔티티로 분류하는 단계(112); 및 비디오 컨텐츠로부터 비주얼 오브젝트 및 오디오 이벤트를 인식하고, 인식된 오브젝트 및 이벤트에 대해 메타데이터 인덱싱을 수행하는 단계(113)를 포함한다.
비디오 구조화 단계(110)의 비디오 컨텐츠로부터 추출된 시각적 프레임과 상기 비디오 컨텐츠와 관련되어 획득되는 텍스트 데이터로부터 추출된 연관 키워드를 최대 엔트로피 분석을 이용하여 링킹시키는 단계(111)에서는 먼저 최대 엔트로피 분석이 수행되는데, 이는 조인트 코-어커런스(joint co-occurrences)에 기초하여 비주얼 및 텍스트 데이터를 동시에 모델링할 수 있다.
비주얼 및 텍스트 데이터를 링킹하기 위해서는 입력된 비디오 데이터에 컬러 및 엣지 히스토그램을 적용하여 비디오 컨텐츠로부터 샷 경계를 검출한다. 비디오에서 유사한 특성을 가진 모든 샷은 비디오 장면(scene)으로 그룹화된다. 샷의 중간 프레임은 샷을 대표하는 키 이미지로 선택되고, 키 이미지를 분석하기 위해 비주얼 특징들을 추출한다. 각 프레임은 블록의 색상, 질감, 위치 및 움직임 벡터로부터 산출되는 2, 3 차원 특징 벡터로서 각각 표시되는, 6 x 6 블록으로 분할되고 비주얼 특징들은 다음과 같다.
1) 색상 특징 : HVC(Hue-Value-Chroma) 컬러를 수집하고 히스토그램으로 저장하여 계산된다. 각 컬러와 대응하는 평균 및 분산이 계산되고 6-차원 벡터를 형성한다.
2) 텍스처 특징 : 이는 1,2 차원을 가진 벡터이다. 이 벡터를 얻기 위하여, 블록에 대해 6개의 방향을 가진 가버 필터(Gabor filter)를 수행한 다음 각 방향의 히스토그램으로부터 평균 및 분산을 선택한다.
3) 위치 특징 : 이것은 프레임 내의 블록의 행과 열 인덱스에 따라 획득된다. 이것은 2차원 벡터이다.
4) 움직임 특징 : 이 데이터를 획득하기 위해, 움직임 벡터는 먼저 추정되고 난 다음에, 3개의 빈들(bins)을 사용하여 정규화된 방향들을 기술한다.
특징 추출에 이어, X-means 알고리즘을 이용하여 프레임의 모든 블록들을 클러스터링하고, 각 블록에 질량중심(centroid) 라벨을 할당한다. 이러한 블록은
Figure 112015064080974-pat00001
로 표시된다. 여기서
Figure 112015064080974-pat00002
는 블록을,
Figure 112015064080974-pat00003
는 크기 연산자를 의미하고,
Figure 112015064080974-pat00004
이다.
실험을 위한 비디오에 대응하는 모든 스피치 트랜스크립트가 수집되고, 트랜스크립트는 수동으로 정렬된다. 비디오 토픽에 대한 관련 키워드를 수집하기 위해서 스탑워드(stopwords)를 이용하여 불필요한 키워드를 필터링한다. 명사를 제외한 모든 워드들은 자동으로 트랜스크립트에서 제거된다. 이러한 키워드는
Figure 112015064080974-pat00005
로 표시된다. 여기서
Figure 112015064080974-pat00006
는 키워드이고,
Figure 112015064080974-pat00007
이다.
다음 단계에서, 비주얼 컨텐츠를 텍스트 정보에 매핑한다. 즉, 비디오의 샷들은 키워드를 이용하여 주석이 부가된다. 이미지 주석을 사용함으로써, 샷들 사이의 비주얼 관계는 고-레벨 개념(high-level notion)으로 전환시킬 수 있다.
최대 엔트로피 (MaxEnt) 방법은 시각적 및 텍스트 컨텐츠 사이의 코-어커런스를 모델링 할 수 있는 유효한 방법을 제공한다. 이는 주어진 프레임 영상 x에 주석이 부가된 y를 생성한다. 이미지와 이미지의 주석 사이의 코-어커런스 관계는 실험 데이터 집합 V 및 W를 통해 알 수 있다. 실험 데이터는 페어-형태 데이터 (x, y)를 수집함으로써 얻어지고, x 및 y의 연관도는 수학식1의 함수에 의해 결정될 수 있다. 실험 데이터를 V 와 W라고 가정하고,
Figure 112015064080974-pat00008
는 트레이닝 페어
Figure 112015064080974-pat00009
을 나타낸다고 할 때 여기서 v는 비디오 프레임에서 도출된 V의 블록을 나타내고, w는 W의 키워드를 나타낸다. 따라서,
Figure 112015064080974-pat00010
는 전체 조합의 수이다. 이미지 및 이미지의 연관 키워드 간의 종속성은 아래 수학식 1로 표현될 수 있다.
Figure 112016070615055-pat00045
여기서,
Figure 112015064080974-pat00012
, x는 이미지를 나타내고, y는 실험 비디오를 스캔할 때 트랜스크립트 내의 워드를 의미하고,
Figure 112015064080974-pat00013
은 x의 v를 위한 매칭 블록의 수이다. 이 함수는 관심을 가진 워드가 입력된 때 관련 정도를 정의한다. 이러한 함수를 이용하면 각각의 쌍에서의 상호 관련 정도를 측정 할 수 있다.
본 발명의 일 실시예는 Berger 등에 의해 제안된 아래 수학식 2의 MaxEnt 지수 형태를 채택하여, 시각 정보와 텍스트 정보의 연결을 모델링한다.
Figure 112015064080974-pat00014
여기서
Figure 112015064080974-pat00015
Figure 112015064080974-pat00016
Figure 112015064080974-pat00017
를 위한 파라미터이다.샘플로부터 각
Figure 112015064080974-pat00018
가 결정되면,
Figure 112015064080974-pat00019
가 Berger 등의 알고리즘을 사용하여 추정 될 수 있다. D를 비디오의 트랜스크립트 내 키워드 집합이라고 했을 때, 실험 프로시저가 완료되면, 프레임의 주석은 방정식
Figure 112015064080974-pat00020
에 의해 결정된다. 이 방정식은 비디오의 트랜스크립트 내 키워드 집합 D의 모든 가능한 키워드를 테스트하여 레이블링되지 않은 이미지를 평가하고, 가장 높은 점수를 가진 키워드를 이미지의 주석이라고 지칭된다. 본 발명의 실시예들에서, 샷의 중간 프레임을 대표 이미지로서 사용하기 때문에, 입력 비디오 내 모든 샷은 상술한 프로세스를 통해 적절한 키워드와 연결될 수 있다.
다음으로 키워드 분류용 워드 추론 툴로 잘 알려져 있는 워드 넷(WordNet)을 이용하여 키워드 분류하는 단계(112)를 수행한다. WordNet 분류에 기초하여 4개의 엔티티로 이루어진 기본 프레임워크가 구성된다. 이 기본 프레임워크는, 비주얼 오브젝트 및 오디오 이벤트를 검출하기 위한 메타데이터 인덱싱을 이용하여 수정된다. WordNet의 모든 관계 중, 상위어(hypernym)는 두 워드 사이의 계층적 시맨틱 관계를 표현할 수 있다. 예를 들어, "선생님"은 "사람"의 부분 집합이며, 워드 "사람"은 워드 넷에서 정의된 개념 카테고리들 중 하나이다. 따라서, "사람은" "선생님"의 상위 개념이다. WordNet을 이용하여, 각 워드는 각 워드의 상위어를 조회함으로써 적절한 엔티티로 분류될 수 있다. 다음은 워드 분류 단계들을 나타낸다.
1) 1 단계 : 본 발명의 일 실시예에 따라, 첫 번째 엔티티 "who"를, WordNet에서 사람의 이름 및 "person"의 부분 집합에 속하는 용어를 포함하는 것으로 규정한다. 즉, "teacher", "worker"와 "musician"과 같은 키워드는 그것이 상위어가 "person"에 속하는 한 첫 번째 엔티티로 분류된다. 사전을 이용하여 사람의 이름을 식별할 수 있다. 1 단계에서 인식 할 수 없는 워드는 다음 단계로 전달된다.
2) 2 단계 : 두 번째 엔티티 "where"로서, 3개의 부분 집합 - 소셜 그룹, 건물 및 위치 중 어느 하나에 속하는 워드를 선택한다.
3) 3 단계 : 세 번째 엔티티는 "what"이다. "who, where, when"에 속하지 않는 모든 워드가 이 엔터티로 분류된다.
4) 4 단계 : 마지막으로 네 번째 엔티티는 "when"이다. 이 엔터티는 년, 월, 일 또는 임의의 시간을 나타내는 구설과 같은 시간 패턴을 단순 검색함으로써 분류될 수 있다.
메타데이터 인덱싱을 수행하는 단계(113, 123)에서는 먼저 비디오 컨텐츠에서 비주얼 오브젝트 및 오디오 이벤트를 인식해야 된다. 비주얼 오브젝트 추출을 위해서 3가지 타입의 오브젝트들, 즉 인간의 정면 얼굴, 측면 얼굴, 및 신체가 프로세싱되는데, 이들은 인식이 쉽고 정밀도도 높기 때문이다. 만약 얼굴이 이미지 내에 존재하는 경우, 그 얼굴이 정면인지 측면인지를 판단한다. 만약 그게 아니라면, 사람의 신체(body)를 검출한다.
얼굴 검출 기술은 기존의 Haar-like 특징을 기초로 이루어진다. 이러한 특징은 얼굴을 인식하는데 쉽고 효과적인 것으로 알려져 있다. 본 발명에서는 얼굴 인식을 위하여 Lienhart 와 Maydt 가 개발 한 extended Haar-like 특징을 사용하여 정면 얼굴 및 측면 얼굴을 검출한다. 만약, 이미지 내에 얼굴이 존재하지 않는 경우, 사람의 신체를 검출하기 위하여, HOGs(histograms of oriented gradients)를 사용한다.
한편, 오디오 이벤트를 감지하는 것은 MFCC(mel frequency cepstral coefficients)에 기초한다.
구조화된 비디오 컨텐츠를 소셜 네트워크 분석을 이용하여 증강하는 단계(120)는, 상기 비디오 컨텐츠와 관련된 설명 데이터, 관련 비디오 데이터, 연결 정보, 연결 계층구조를 포함하는 메타데이터에 기초하여 소셜 네트워크(social network)를 구축하는 단계(121); 상기 비디오 컨텐츠와 관련된 비디오 클러스터를 선택하기 위하여 마르코프 클러스터링(Markov clustering, MCL) 알고리즘을 적용하는 단계(122); 및 선택된 비디오 클러스터들 중에서 일정 이상의 의존도가 높은 순위(rank)를 가진 클러스터를 증강 컨텐츠로 선택하고, 선택된 증강 컨텐츠에 대해 메타데이터 인덱싱을 수행하는 단계(123)를 포함한다.
소셜 네트워크를 구축하는 단계(121)에서 네트워크의 각 노드는 비디오를 나타내고, 엣지는 비디오들 사이의 하이퍼링크를 나타낸다. 이러한 네트워크는
Figure 112015064080974-pat00021
로 기술될 수 있으며, 여기서,
Figure 112015064080974-pat00022
는 비디오 셋이며,
Figure 112015064080974-pat00023
는 비디오들 간의 연결을 특정한다.
본 발명의 마르코프 클러스터링(Markov clustering, MCL) 알고리즘을 적용하는 단계(122)에서는 네트워크의 상관관계 서브 그래프를 찾기 위해 연결된 리스트 형태의 비디오 목록의 순위 정보를 사용한다. 두 비디오 사이의 순위는 관계형 엣지(a relational edge)라고 하고, 동일한 비디오의 순위들은 서로 다른 사용자들의 주석들에 기인하여 일치되지 않을 수 있다. 이러한 문제를 처리하기 위한 방법 중 하나는 비디오의 순위들을 평균화하는 과정을 포함한다. 그러나, 클러스터 크기의 선택, 관련 비디오의 수는 다른 문제이다. 따라서 본 발명에서는, 라인/정점 그래프 변환(line/vertex graph conversion)을 사용한다.
도 2는 정점 그래프를 라인 그래프로 변환된 그래프 도시하고 있다. 라인 그래프에서는 상술한 소셜 네트워크는
Figure 112015064080974-pat00024
로 변환한다.
Figure 112015064080974-pat00025
의 구조와는 대조적으로 라인 그래프의 노드는 엣지를 나타내며, 엣지는 노드를 나타낸다. 라인 그래프 영역에서, 엣지
Figure 112015064080974-pat00026
는 정점 그래프에서 엣지들 사이의 상관관계라고 해석 될 수 있다.
Figure 112015064080974-pat00027
에 있는 임의의 두 개의 연결된 정점들에 대해, 각 의존 정도는 정점 그래프 영역에서 각자의 순위를 사용하여 모델링될 수 있다. "
Figure 112015064080974-pat00028
"와 "
Figure 112015064080974-pat00029
"을 라인 그래프에서 연결된 두 정점 나타낸다고 하자. 여기서, 기호":"은 정점들이 라인 그래프 도메인에 있는 것을 나타낸다. 그리고, p와 r의 연결된 리스트에서 q의 두 순위는 각각
Figure 112015064080974-pat00030
Figure 112015064080974-pat00031
라고 가정했을 때, "
Figure 112015064080974-pat00032
"와 "
Figure 112015064080974-pat00033
"을 사용하여 q의 수정된 순위는 다음 수학식 3에 의하여 계산될 수 있다.
Figure 112015064080974-pat00034
여기서 tanh(×)는 쌍곡선 탄젠트 함수, 또는 활성화 함수이다. 하나보다 많은 수의 순위들이 존재하는 경우, 수학식 3은 수정된 순위를 추정한다. 또한, 이 함수는 동일한 비디오에 대한 서로 다른 사용자들의 의견을 반영할 수 있다. 만약
Figure 112016070615055-pat00035
Figure 112016070615055-pat00036
둘 모두가 1과 같다면, 순위 적절성이 최대값에 도달하는데, 이는
Figure 112016070615055-pat00037
의 두 엣지가 가장 높은 일관성을 가지고 있음을 의미한다.
라인 그래프의 각각의 엣지에 대한 순위 적절성을 반복하여 계산한 후, 그 적절성 값이 문턱(threshold) 값에 도달하지 않는 엣지를 필터링하기 위하여, 그래프에 MCL을 적용한다. 특히, 만약 라인 그래프 영역에서 정점 또는 엣지가 MCL 처리 후에 고립된다면, 영향과 불일치를 감소시키기 위해, 정점 그래프에서 대응하는 엣지 또는 정점을 제거할 수 있다. 예를 들어, 이 MCL 알고리즘이 도 2에서 엣지
Figure 112015064080974-pat00038
를 삭제할 때, q의 영향은 적절성 점수를 계산하는 동안 감소된다.
도 3은 9개의 정점을 가진 그래프에 MCL을 적용하는 과정을 나타내는 것으로, 초기 상태(도 3의 (a)), 중간 상태(도 3의 (b)), 마지막 상태(도 3의 (c))가 도시된다.
MCL 프로세스가 완료되자마자, 라인 그래프에서 제거된 엣지들을 정점 그래프로 매핑한다. 특히, 정점 그래프는 여전히 원래의 소셜 네트워크와 동일하다. 즉 엣지나 정점이 전혀 제거되지 않은 상태이다. 이렇게 하면, 정점 그래프 영역내의 정점들은 라인 그래프 영역 내의 연결이 끊어진 엣지들에 따라 라벨링된다. MCL을 적용함으로써 중요하지 않은 엣지들을 반복적으로 제거되는데 이러한 엣지들은 비디오 간의 비주얼 및 텍스트 관계 정보, 유사성과 같은 정보를 추정하는데 사용한다.
본 발명은 다음 수학식 4와 같은 컨텐츠 적합성(content pertinence)을 정의한다.
Figure 112015064080974-pat00039
여기서, nSift는 SIFT(scale-invariant feature transform) 및 RANSAC(random sample consensus) 알고리즘에 의해 결정된 2개의 비디오의 대표 프레임 사이의 매칭 좌표의 수이다. sVsm는 VSM(vector space model)를 이용하여 두 비디오의 문자 정보 간의 코사인 유사성 점수이다. 콘텐츠 적합성 점수가 높을수록 두 비디오는 더 유사하다.
SIFT는 다양한 위치 및 스케일로 DoG(Difference-of-Gaussian)의 로컬 극한값을 나타내는 키 좌표와 같은 로컬 피크 검출한다. RANSAC는 아웃라이어(노이즈) 검출 알고리즘으로 매칭 결과에서 노이즈를 제거한다. VSM은 도큐먼트는 그것의 워드들에 기초하여 특징을 가지기 때문에, 도큐먼트를 벡터 공간으로 매핑하고 비디오의 문자 컨텐츠 모두를 파싱한 후 비교할 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
110 : 비디오컨텐츠 구조화 단계
111 : 비주얼과 텍스추얼 정보 링킹
112 : 엔티티 분류
113 : 메타데이터 인덱싱
120 : 증강단계
121: 소셜네트워크 구축
122 : 마르코프 클러스터링
123 : 메타데이터 인덱싱

Claims (16)

  1. 시맨틱 개념과 소셜 멀티미디어 분석을 통한 비디오 컨텐츠 증강방법에 있어서,
    입력된 비디오 컨텐츠를 구조화하는 제1단계;
    상기 구조화된 비디오 컨텐츠를 소셜 네트워크 분석을 통해 증강하는 제2단계;로 나눠지고,
    상기 입력된 비디오 컨텐츠를 구조화하는 제1단계는 상기 비디오 컨텐츠로부터 비주얼 프레임을 추출하고, 상기 비디오 컨텐츠와 연관된 텍스트 데이터로부터 추출된 연관 키워드를 최대 엔트로피 분석을 이용하여 링킹하는 제1-1단계;
    상기 연관 키워드를 4개의 엔티티로 분류하는 제1-2단계;
    상기 비디오 컨텐츠에서 비주얼 오브젝트 및 오디오 이벤트를 인식하고, 인식된 상기 비주얼 오브젝트 및 오디오 이벤트에 대해 메타데이터 인덱싱을 수행하는 1-3단계;를 포함하고,
    상기 구조화된 비디오 컨텐츠를 소셜 네트워크 분석을 통해 증강하는 제2단계는 상기 비디오 컨텐츠와 관련된 메타데이터를 기반으로 소셜 네트워크를 구축하는 제2-1단계;
    상기 비디오 컨텐츠와 관련된 비디오 클러스터를 선택하기 위해 마르코프 클러스터링 알고리즘을 적용하는 제2-2단계;
    상기 선택된 비디오 클러스터에서 일정 의존도 순위 내의 클러스터를 증강 컨텐츠로 선택하고, 상기 선택된 증강 컨텐츠에 대해 메타데이터 인덱싱을 수행하는 제2-3단계를 포함하되,
    상기 추출된 비주얼 프레임은 6 x 6 블록으로 분할되고, 상기 블록의 모션 벡터, 위치, 텍스처, 색상으로부터 계산된 2, 3차원 특징 벡터로 표시되는 것을 특징으로 하는 시맨틱 개념과 소셜 멀티미디어 분석을 통한 비디오 컨텐츠 증강방법.
  2. 삭제
  3. 청구항 제1항에 있어서,
    상기 4개의 엔티티는 누가(who), 무엇을(what), 어디서(where), 언제(when)인 것을 특징으로 하는 시맨틱 개념과 소셜 멀티미디어 분석을 통한 비디오 컨텐츠 증강방법.
  4. 청구항 제3항에 있어서,
    상기 비주얼 오브젝트 인식을 위해서 확장된 Haar-like와 HOG를 이용하고, 오디오 이벤트 인식을 위해서 MFCC를 이용하는 것을 특징으로 하는 시맨틱 개념과 소셜 멀티미디어 분석을 통한 비디오 컨텐츠 증강방법.
  5. 청구항 제4항에 있어서,
    상기 비주얼 오브젝트는 사람의 정면, 측면 얼굴 및 신체와 같이 3가지 타입의 오브젝트로 나뉘어져 있는 것을 특징으로하는 시맨틱 개념과 소셜 멀티미디어 분석을 통한 비디오 컨텐츠 증강방법.
  6. 청구항 제5항에 있어서,
    상기 구축된 소셜 네트워크의 각 노드는 비디오를 나타내고, 엣지는 상기 비디오들간의 하이퍼링크인 것을 특징으로 하는 시맨틱 개념과 소셜 멀티미디어 분석을 통한 비디오 컨텐츠 증강방법.
  7. 삭제
  8. 청구항 제1항에 있어서,
    상기 마르코프 클러스터링 알고리즘은 상기 비디오 컨텐츠의 적합성을 계산하기 위해
    Figure 112016070615055-pat00040
    을 이용하는 것을 특징으로 하는 시맨틱 개념과 소셜 멀티미디어 분석을 통한 비디오 컨텐츠 증강방법.
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
KR1020150094241A 2015-07-01 2015-07-01 비디오 컨텐츠 증강 방법 KR101643979B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150094241A KR101643979B1 (ko) 2015-07-01 2015-07-01 비디오 컨텐츠 증강 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150094241A KR101643979B1 (ko) 2015-07-01 2015-07-01 비디오 컨텐츠 증강 방법

Publications (1)

Publication Number Publication Date
KR101643979B1 true KR101643979B1 (ko) 2016-07-29

Family

ID=56617861

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150094241A KR101643979B1 (ko) 2015-07-01 2015-07-01 비디오 컨텐츠 증강 방법

Country Status (1)

Country Link
KR (1) KR101643979B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416026A (zh) * 2018-03-09 2018-08-17 腾讯科技(深圳)有限公司 索引生成方法、内容搜索方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100031572A (ko) * 2007-06-15 2010-03-23 마이크로소프트 코포레이션 다양한 속성을 갖는 콘텐트의 제시 및 탐색
KR101161241B1 (ko) * 2011-09-23 2012-07-02 인하대학교 산학협력단 시맨틱 웹 기술을 연동한 증강현실시스템의 정보제공시스템 및 그 방법
KR20150022088A (ko) * 2013-08-22 2015-03-04 주식회사 엘지유플러스 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100031572A (ko) * 2007-06-15 2010-03-23 마이크로소프트 코포레이션 다양한 속성을 갖는 콘텐트의 제시 및 탐색
KR101161241B1 (ko) * 2011-09-23 2012-07-02 인하대학교 산학협력단 시맨틱 웹 기술을 연동한 증강현실시스템의 정보제공시스템 및 그 방법
KR20150022088A (ko) * 2013-08-22 2015-03-04 주식회사 엘지유플러스 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416026A (zh) * 2018-03-09 2018-08-17 腾讯科技(深圳)有限公司 索引生成方法、内容搜索方法、装置及设备

Similar Documents

Publication Publication Date Title
US11256741B2 (en) Video tagging system and method
Tu et al. Joint video and text parsing for understanding events and answering queries
Yeung et al. Videoset: Video summary evaluation through text
Clinchant et al. Semantic combination of textual and visual information in multimedia retrieval
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
KR101976081B1 (ko) 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램
Altadmri et al. A framework for automatic semantic video annotation: Utilizing similarity and commonsense knowledge bases
Papadopoulos et al. Image clustering through community detection on hybrid image similarity graphs
Moumtzidou et al. ITI-CERTH participation to TRECVID 2012.
Liu et al. Event analysis in social multimedia: a survey
Sergieh et al. Geo-based automatic image annotation
Tabish et al. Activity recognition framework in sports videos
Goel et al. A refined hybrid image retrieval system using text and color
Wachman et al. Tools for browsing a TV situation comedy based on content specific attributes
Zaharieva et al. Retrieving Diverse Social Images at MediaEval 2017: Challenges, Dataset and Evaluation.
Huang et al. Tag refinement of micro-videos by learning from multiple data sources
KR101643979B1 (ko) 비디오 컨텐츠 증강 방법
Liu et al. Naming faces in broadcast news video by image google
Aletras et al. Computing similarity between cultural heritage items using multimodal features
Tapu et al. TV news retrieval based on story segmentation and concept association
Bastan et al. An MPEG-7 compatible video retrieval system with integrated support for complex multimodal queries
Souvannavong et al. Video content modeling with latent semantic analysis
Li et al. Multi-level semantic characterization and refinement for web image search
Oida et al. Development of presentation slide retrieval system based on visual information
TWI412277B (zh) 基於故事情節的結構化影片摘要方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190821

Year of fee payment: 4