KR20120134936A - 하이퍼 비디오 정보 파일 제작장치 및 제작방법, 그 기록매체 - Google Patents

하이퍼 비디오 정보 파일 제작장치 및 제작방법, 그 기록매체 Download PDF

Info

Publication number
KR20120134936A
KR20120134936A KR1020110054169A KR20110054169A KR20120134936A KR 20120134936 A KR20120134936 A KR 20120134936A KR 1020110054169 A KR1020110054169 A KR 1020110054169A KR 20110054169 A KR20110054169 A KR 20110054169A KR 20120134936 A KR20120134936 A KR 20120134936A
Authority
KR
South Korea
Prior art keywords
information
frame
video
face
representative
Prior art date
Application number
KR1020110054169A
Other languages
English (en)
Other versions
KR101313285B1 (ko
Inventor
김호
Original Assignee
김호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김호 filed Critical 김호
Priority to KR1020110054169A priority Critical patent/KR101313285B1/ko
Publication of KR20120134936A publication Critical patent/KR20120134936A/ko
Application granted granted Critical
Publication of KR101313285B1 publication Critical patent/KR101313285B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration by the use of histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8543Content authoring using a description language, e.g. Multimedia and Hypermedia information coding Expert Group [MHEG], eXtensible Markup Language [XML]

Abstract

본 발명은 하이퍼 비디오 정보 파일 제작장치 및 제작방법, 그 기록매체에 관한 것으로서,
비디오 파일에 포함된 인물이나 객체의 부가 정보가 정보 파일로 제작되어 하이퍼 링크로 연결되는 하이퍼 비디오에 있어서, 정보 파일 제작장치에서 실행되는 하이퍼 비디오 정보 파일 제작방법으로서, (a) 입력된 비디오 파일로부터 프레임들을 추출하는 단계; (b) 추출된 프레임들에서 샷 경계를 검출하고, 검출된 각 샷 별로 대표 프레임을 추출하며, 샷 및 대표 프레임에 관한 정보를 비디오계층 DB에 저장하는 단계; (c) 각 샷들 중 유사한 샷들을 하나의 장면으로 그룹화하고, 상기 프레임 및 샷, 장면이 구조화된 비디오 계층 구조 정보를 생성하여 비디오계층 DB에 저장하는 단계; (d) 사용자로부터 임의의 프레임에서 주목하는 객체 영역을 선택 입력받고, 상기 대표 프레임들에서 상기 객체 영역을 검출하여 객체 위치 DB에 저장하는 단계; (e) 상기 각 대표 프레임들에서 검출된 객체의 대표 위치들에서부터 인접한 프레임에서의 위치를 추적하여 객체 위치 DB에 추가 저장하는 단계; (f) 사용자로부터 입력된 객체 정보를 객체 정보 DB에 저장하는 단계; 및 (g) 상기 객체 위치 DB와 객체 정보 DB 내용을 매핑하여 하이퍼 비디오 정보 파일을 생성하는 단계;를 포함하여 구성된다.

Description

하이퍼 비디오 정보 파일 제작장치 및 제작방법, 그 기록매체 {Method and Device for Authoring Information File of Hyper Video and Computer-readable Recording Medium for the same}
본 발명은 하이퍼 비디오 정보 파일 제작장치 및 제작방법, 그 기록매체에 관한 것으로서, 비디오 데이터에 포함된 인물이나 객체들의 부가 정보가 하이퍼 링크로 연결되는 하이퍼 비디오의 정보 파일을 제작하되, 장면분할, 얼굴검출 및 그룹화, 객체검출, 객체 추적 등을 자동으로 하여 하이퍼 비디오 정보 파일 제작을 효율적으로 진행할 수 있도록 구성된 하이퍼 비디오 정보 파일 제작장치 및 제작방법, 그 기록매체에 관한 것이다.
하이퍼 비디오(Hyper Video)란, 하이퍼 링크(Hyper Link)를 포함하고 있는 비디오, 즉 비디오에 등장하는 인물들의 얼굴영역이나 목적하는 객체영역들에 하이퍼 링크를 연결하고, 그것을 통하여 인물이나 객체들의 부가 정보를 볼 수 있도록 편집된 비디오를 말한다.
이러한 하이퍼 비디오는 인터넷 홈 페이지에서 광범위하게 사용되고 있는 하이퍼 텍스트(HyperText)의 개념을 비디오 분야로 확장한 것이라고 할 수 있다. 일반 비디오와 달리 하이퍼 비디오에서는 그 재생 시 하이퍼 링크가 걸려 있는 인물들과 객체들에 대한 부가 정보를 사용자가 손쉽게 선택하여 볼 수 있다.
최근 하이퍼 비디오의 응용 범위는 예를 들어, PPL(Product in PLacement) 개념을 응용한 IPTV에서의 양방향 광고 등 양방향 서비스(Interactive Service)를 중심으로 상당히 확대되는 추세이다.
하이퍼 링크로 비디오에 연결되는 부가 정보로서는 비디오에 포함된 인물과 관련된 부가적 화상, 본문, 음성, 비디오, 홈페이지 주소(URL) 등을 예로 들 수 있다.
이러한 하이퍼 비디오는 비디오 데이터에 포함된 인물(예, 얼굴)이나 객체들(예, 안경, 귀걸이, 의류, 가방 등)의 각 비디오 프레임 상의 위치 및 그와 관련된 부가 정보를 저장한 정보 파일을 하이퍼 비디오 정보 파일 제작장치를 통해 제작하고, 하이퍼 비디오 재생장치에서 비디오 데이터와 해당 정보 파일을 하이퍼 링크 되도록 재생하는 방식으로 구현된다.
하이퍼 비디오 정보 파일 제작에서 중요한 문제는 하이퍼 링크를 걸어주어야 할 목적하는 인물 또는 객체 영역의 정의와 검증이다.
이와 관련하여, MacOS 용 VideoClix와 같은 종래의 하이퍼 비디오 정보 파일 제작장치는, 비디오의 매 프레임에서 목적하는 객체 영역의 정의와 그 변화를 작업자가 수동으로 지정하고 편집하는 방식을 취하므로, 하이퍼 비디오 정보 파일 제작에 많은 시간과 노력이 소비된다는 한계가 있었다.
이러한 점을 감안한 기술로서, 예를 들어, 대한민국 공개특허 10-2009-0044221호(공개일자 2009.05.07)에서는 양방향 광고 정보 파일 저작 서비스 제공방법에 대하여 제안한 바 있다.
그러나, 상기 양방향 광고 정보 파일 저작 서비스 제공방법은, 추출된 프레임에 포함된 광고 객체 영역을 정보 파일 저작자가 수동으로 선택하고, 기 설정된 프레임 추출 빈도에 따라 다음 프레임을 순차적으로 추출하는 방식으로 진행하므로, 근본적으로 수동 작업의 한계를 벗어나지 못하였고, 전체 프레임에 대하여 소요되는 작업 시간이 적지 않다는 문제가 있었다.
또한, 상기 양방향 광고 정보 파일 저작 서비스 제공방법은, 장면전환판단 루틴을 구비하도록 하여, 추출된 프레임과 이전 프레임의 변화도를 측정하여 임계값보다 크면 장면 전환된 것으로 판단하여 그 동안 추출된 여러 프레임들을 모아 하나의 장면으로 저장하는 방식을 취하였는데, 통상적으로 동영상이 카메라를 통해 촬영된 구조에 따라 프레임(frame)-샷(shot)-장면(scene) 등 다층적 영상 구조를 취함에도 불구하고, 이러한 구분 없이 프레임의 변환도 측정에 따라 단순히 장면 전환 여부만을 판단하므로, 장면 전환을 구분하는 실질적 효과가 미미하였다.
또한, 상기와 같은 장면 전환을 구분함에 있어서도, 기 설정된 고정된 임계값을 사용하므로, 다양한 화면 변화에 대응하지 못하고 장면 전환 판단의 정밀도가 낮아진다는 문제점도 있었다.
또한, 양방향 광고 정보 파일을 만들기 위한 기술의 목적상, 광고 대상이 되는 물건 객체에 대한 위치만을 파악하도록 구성되어, 인물의 얼굴 위치 파악에는 효과적인 수단을 제공하지 못하는 한계가 있었다.
상기 종래 기술에 따른 문제점을 해결하기 위한 본 발명은, 특히, 비디오 데이터에 포함된 인물이나 객체들의 부가 정보가 하이퍼 링크로 연결되는 하이퍼 비디오의 정보 파일을 제작하되, 장면분할, 얼굴검출 및 그룹화, 객체검출, 객체 추적 등을 자동으로 하여 하이퍼 비디오 정보 파일 제작을 효율적으로 진행할 수 있도록 구성된 하이퍼 비디오 정보 파일 제작장치 및 제작방법, 그 기록매체를 제공하는 것을 그 목적으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명의 일실시예는, 비디오 파일에 포함된 인물이나 객체의 부가 정보가 정보 파일로 제작되어 하이퍼 링크로 연결되는 하이퍼 비디오에 있어서, 정보 파일 제작장치에서 실행되는 하이퍼 비디오 정보 파일 제작방법으로서, (a) 입력된 비디오 파일로부터 프레임들을 추출하는 단계; (b) 추출된 프레임들에서 샷 경계를 검출하고, 검출된 각 샷 별로 대표 프레임을 추출하며, 샷 및 대표 프레임에 관한 정보를 비디오계층 DB에 저장하는 단계; (c) 각 샷들 중 유사한 샷들을 하나의 장면으로 그룹화하고, 상기 프레임 및 샷, 장면이 구조화된 비디오 계층 구조 정보를 생성하여 비디오계층 DB에 저장하는 단계; (d) 사용자로부터 임의의 프레임에서 주목하는 객체 영역을 선택 입력받고, 상기 대표 프레임들에서 상기 객체 영역을 검출하여 객체 위치 DB에 저장하는 단계; (e) 상기 각 대표 프레임들에서 검출된 객체의 대표 위치들에서부터 인접한 프레임에서의 위치를 추적하여 객체 위치 DB에 추가 저장하는 단계; (f) 사용자로부터 입력된 객체 정보를 객체 정보 DB에 저장하는 단계; 및 (g) 상기 객체 위치 DB와 객체 정보 DB 내용을 매핑하여 하이퍼 비디오 정보 파일을 생성하는 단계;를 포함하여 구성된다.
본 발명의 또 다른 측면에 따른 일실시예는, 비디오 파일에 포함된 인물이나 객체의 부가 정보가 정보 파일로 제작되어 하이퍼 링크로 연결되는 하이퍼 비디오에 있어서, 정보 파일 제작장치에서 실행되는 하이퍼 비디오 정보 파일 제작방법으로서, 입력된 비디오 파일로부터 추출된 프레임들에서 샷 경계를 검출하고, 검출된 각 샷 별로 대표 프레임을 추출하며, 샷 및 대표 프레임에 관한 정보를 비디오계층 DB에 저장하는 단계; 각 샷들 중 유사한 샷들을 하나의 장면으로 그룹화하고, 상기 프레임 및 샷, 장면이 구조화된 비디오 계층 구조 정보를 생성하여 비디오계층 DB에 저장하는 단계; 각 대표 프레임들에 포함된 얼굴 영역을 검출하여 상기 검출된 얼굴 영역 중 유사한 얼굴들로 얼굴 그룹화를 진행하여 객체 위치 DB에 저장하며, 사용자로부터 선택 입력된 객체 영역을 상기 대표 프레임에서 검출하고, 인접한 프레임에서 상기 객체와 그룹화된 얼굴의 위치를 추적하여 객체 위치 DB에 저장하는 단계; 사용자로부터 입력된 객체 정보를 객체 정보 DB에 저장하고, 상기 객체 위치 DB와 객체 정보 DB 내용을 매핑하여 하이퍼 비디오 정보 파일을 생성하는 단계;를 포함하여 구성된다.
본 발명의 다른 측면에 따르면, 상기 하이퍼 비디오 정보파일 제작방법의 각 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공된다.
본 발명의 또 다른 측면에 따른 일실시예는, 비디오 파일에 포함된 인물이나 객체의 부가 정보가 하이퍼 링크로 연결되는 하이퍼 비디오를 구성하기 위한 하이퍼 비디오 정보 파일 제작장치로서, 입력된 비디오 파일로부터 프레임들을 추출하는 기능과, 추출된 프레임들에서 샷 경계를 검출하고, 검출된 각 샷 별로 대표 프레임을 추출하며, 샷 및 대표 프레임에 관한 정보를 비디오계층 DB에 저장하는 기능과, 각 샷들 중 유사한 샷들을 하나의 장면으로 그룹화하고, 상기 프레임 및 샷, 장면이 구조화된 비디오 계층 구조 정보를 생성하여 비디오계층 DB에 저장하는 기능을 수행하는 장면 그룹화 모듈; 상기 대표 프레임들에서 상기 객체 영역을 검출하여 객체 위치 DB에 저장하는 기능을 수행하는 객체 검출 모듈; 상기 각 대표 프레임들에서 검출된 객체의 대표 위치들에서부터 인접한 프레임에서의 위치를 추적하여 객체 위치 DB에 추가 저장하는 객체 추적 모듈; 사용자로부터 임의의 프레임에서 주목하는 객체 영역을 선택 입력받는 기능과, 사용자로부터 입력된 객체 정보를 객체 정보 DB에 저장하는 기능을 수행하는 사용자 UI 모듈; 및 상기 객체 위치 DB와 객체 정보 DB 내용을 매핑하여 하이퍼 비디오 정보 파일을 생성하는 기능을 적어도 수행하는 제어 모듈;을 포함하여 구성된다.
바람직하게는, 검출된 각 대표 프레임들에 포함된 얼굴 영역을 검출하는 얼굴 영역 검출 모듈;및 상기 검출된 얼굴 영역 중 유사한 얼굴들로 얼굴 그룹화를 진행하여 객체 위치 DB에 저장하는 얼굴 그룹화 모듈;을 더 포함하여 구성될 수 있다.
본 발명의 또 다른 측면에 따른 일실시예는, 비디오 파일에 포함된 인물이나 객체의 부가 정보가 하이퍼 링크로 연결되는 하이퍼 비디오를 구성하기 위한 하이퍼 비디오 정보 파일 제작장치로서, 입력된 비디오 파일로부터 추출된 프레임들에서 샷 경계를 검출하고, 검출된 각 샷 별로 대표 프레임을 추출하며, 샷 및 대표 프레임에 관한 정보를 비디오계층 DB에 저장하는 기능; 각 샷들 중 유사한 샷들을 하나의 장면으로 그룹화하고, 상기 프레임 및 샷, 장면이 구조화된 비디오 계층 구조 정보를 생성하여 비디오계층 DB에 저장하는 기능; 각 대표 프레임들에 포함된 얼굴 영역을 검출하여 상기 검출된 얼굴 영역 중 유사한 얼굴들로 얼굴 그룹화를 진행하여 객체 위치 DB에 저장하며, 사용자로부터 선택 입력된 객체 영역을 상기 대표 프레임에서 검출하고, 인접한 프레임에서 상기 객체와 그룹화된 얼굴의 위치를 추적하여 객체 위치 DB에 저장하는 기능; 및 사용자로부터 입력된 객체 정보를 객체 정보 DB에 저장하고, 상기 객체 위치 DB와 객체 정보 DB 내용을 매핑하여 하이퍼 비디오 정보 파일을 생성하는 기능;을 적어도 실행하도록 구성될 수 있다.
이와 같은 본 발명은, 장면분할, 얼굴검출 및 그룹화, 객체검출, 객체 추적을 자동으로 하여 하이퍼 비디오 정보 파일 제작을 쉽게 진행할 수 있다는 장점이 있다.
특히, 본 발명은, 프레임에서 샷 경계를 검출하고 유사한 샷들을 장면으로 그룹화하여 동영상의 계층구조를 생성하므로, 프레임 또는 샷의 갯수가 많은 긴 동영상에 대하여도 편집 시에 개별 샷들에 대한 접근을 보다 쉽게 할 수 있도록 하고, 결과적으로 하이퍼 비디오 제작 효율을 높이는 장점을 제공한다.
또한, 본 발명은, 대표 프레임들에서 객체 위치를 사용자가 추출 혹은 객체 검출을 이용하여 자동으로 검출한 다음, 검출된 전체 객체 혹은 특정한 객체에 대하여 모든 대표 프레임에서의 위치로부터 이후 인접한, 같은 샷 내의 프레임들에서의 위치를 배경처리(background) 방식으로 추적하므로, 이미 장면 그룹화가 진행된 프레임에 대하여는 사용자의 편집 조작을 장시간이 소요되는 객체 추적과 별도로 병행하여 수행할 수 있다는 장점이 있다.
또한, 본 발명은, 샷 경계 검출 시 사용되는 임계값을 능동적으로 설정할 수 있도록 하므로, 동영상의 내용에 관계없이 안정적이고 정밀도 높게 샷 경계를 검출할 수 있도록 한다.
또한, 본 발명은, 광고 대상이 되는 물건 객체뿐만이 아니라, 얼굴 검출 및 그룹화를 통해 다양한 인물 관련 정보의 제공을 위한 인물의 얼굴 위치 파악도 자동적으로 수행하므로, 하이퍼 비디오의 활용성을 더욱 넓히는 장점이 있다.
또한, 본 발명은 하이퍼 비디오 정보 파일을 XML 형식의 메타 자료로 생성하므로, 하이퍼 비디오의 재생 시에 하나의 재생기에서 서로 다른 하이퍼 비디오 편집 결과를 재생(play)할 수 있다는 장점도 제공한다.
도 1은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작장치의 구성도,
도 2는 본 발명의 일 실시예에 의한 하이퍼 비디오 제장장치의 비디오 계층 구조 개념도,
도 3은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 전체 흐름도,
도 4는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 장면 그룹화 단계의 흐름도,
도 5는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 얼굴 검출 단계의 흐름도,
도 6은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 얼굴 그룹화 단계의 흐름도,
도 7은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 객체 검출 단계의 흐름도,
도 8은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 객체 추적 단계의 흐름도,
도 9는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 샷 경계 검출을 설명하기 위한 참고도,
도 10은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 연속 샷 열에서의 인력관계를 설명하기 위한 참고도,
도 11은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 얼굴영역 검출을 위한 4각 특징점의 개념 예시 사진,
도 12a 및 도 12b는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 샷 경계 변화 시의 변화 전후 시점(#91,#93)의 각 프레임 화면 예,
도 13a 및 도 13b는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 장면 변화 시의 변화 전후 시점(#5350,#5352)의 각 프레임 화면 예,
도 14는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 유사 얼굴로 그룹화된 얼굴들의 예,
도 15는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 사용자가 객체 영역을 선택하는 화면 예,
도 16은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 사용자가 선택한 객체에 대하여 각 대표 프레임에서 객체 검출을 한 화면의 예,
도 17a 내지 도 17c는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 대표 프레임에서 검출된 객체에 대하여 인접 프레임(#404,#420,#479)에서 객체 추적되는 화면의 예,
도 18a 및 도 18b는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 사용자 UI의 기본화면 예,
도 19는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 사용자 UI의 객체 정보 편집 화면 예,
도 20은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 사용자 UI의 객체DB 내보내기 윈도우 화면 예,
도 21은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 사용자 UI의 미디어 출력 윈도우 화면 예,
도 22a 내지 도 22c는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 사용자 UI의 객체정보 디스플레이 및 하이퍼링크 화면 예이다.
본 발명은 그 기술적 사상 또는 주요한 특징으로부터 벗어남이 없이 다른 여러가지 형태로 실시될 수 있다. 따라서, 본 발명의 실시예들은 모든 점에서 단순한 예시에 지나지 않으며 한정적으로 해석되어서는 안 된다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구비하다", "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 대응하는 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작장치의 구성도, 도 2는 본 발명의 일 실시예에 의한 하이퍼 비디오 제장장치의 비디오 계층 구조 개념도이다.
비디오 파일에 포함된 인물이나 객체의 부가 정보가 하이퍼 링크로 연결되는 하이퍼 비디오를 구성하기 위한 하이퍼 비디오 정보 파일 제작장치(1000)가 구비된다.
하이퍼 비디오 정보 파일 제작장치(1000)는 중앙처리유닛, 시스템 DB, 시스템 메모리, 인터페이스 등의 컴퓨팅 요소를 구비한 통상의 컴퓨터 시스템이 될 수 있으며, 이러한 통상의 컴퓨터 시스템에 하이퍼 비디오 정보 파일 제작 프로그램의 설치 및 구동에 의해 하이퍼 비디오 정보 파일 제작장치(1000)로서 기능되는 것으로 볼 수 있다. 이러한 컴퓨터 시스템의 통상적 구성에 대한 설명은 생략하며, 이하에서는 본 발명의 실시예의 설명에 필요한 기능 관점의 구성을 중심으로 설명한다.
하이퍼 비디오 정보 파일 제작장치(1000)는 장면 그룹화 모듈(110)을 구비한다.
장면 그룹화 모듈(110)은, 입력된 비디오 파일로부터 프레임들을 추출하는 기능과, 추출된 프레임들에서 샷 경계를 검출하고, 검출된 각 샷 별로 대표 프레임을 추출하며, 샷 및 대표 프레임에 관한 정보를 비디오계층 DB(170)에 저장하는 기능을 수행한다. 이러한 기능은 샷 검출 수단(부호 미도시)에 의해 구현될 수 있다.
또한, 장면 그룹화 모듈(110)은, 각 샷들 중 유사한 샷들을 하나의 장면으로 그룹화하고, 도 2에 도시된 바와 같이 상기 프레임 및 샷, 장면이 구조화된 비디오 계층 구조 정보를 생성하여 비디오계층 DB(170)에 저장하는 기능을 수행한다. 이러한 기능은 장면 분할 수단(부호 미도시)에 의해 구현될 수 있다.
비디오계층 DB(170)는 비디오의 샷 및 장면 정보, 샷들의 대표 프레임 등 비디오의 계층 구조를 관리하는 DB이다.
하이퍼 비디오 정보 파일 제작장치(1000)는 또한, 상기 대표 프레임들에서 상기 객체 영역을 검출하여 객체 위치 DB(180)에 저장하는 기능을 수행하는 객체 검출 모듈(140)을 구비한다.
하이퍼 비디오 정보 파일 제작장치(1000)는 또한, 상기 각 대표 프레임들에서 검출된 객체의 대표 위치들에서부터 인접한 프레임에서의 위치를 추적하여 객체 위치 DB(180)에 추가 저장하는 객체 추적 모듈(150)을 구비한다.
객체 위치 DB(180)는 대표 프레임을 포함한 각 프레임에서 검출한 객체 영역의 위치와, 후술하는 얼굴 영역의 위치(또는 그룹화된 얼굴 위치)를 관리하는 DB이다.
하이퍼 비디오 정보 파일 제작장치(1000)는 또한, 사용자로부터 임의의 프레임에서 주목하는 객체 영역을 선택 입력받는 기능과, 사용자로부터 입력된 객체 정보를 객체 정보 DB(190)에 저장하는 기능을 수행하는 사용자 UI(User Interface) 모듈(160)을 구비한다. 이러한 사용자 UI 모듈(160)은 그 제공 기능에 따라 비디오 재생 수단, 장면 보기 수단, 객체 보기 수단, 객체 정보 보기 수단, 자동처리정보 보기 수단 등 다양한 사용자 UI 수단을 제공한다. 객체 정보 DB(190)는 객체(또는 얼굴)들에 부여된 각종 부가 정보를 관리하는 DB이다.
이러한 사용자 UI 모듈(160)은, 상기 객체 위치 DB(180) 또는 객체 정보 DB(190)에 저장된 정보를 사용자에게 제공하고, 제공한 정보에 대한 수정 편집 정보를 입력받는 기능을 구비할 수 있다.
특히, 상기 사용자 UI 모듈(160)은, 전체 프레임에 대한 객체 검출 또는 추적이 완료된 상태가 아니더라도, 장면 그룹화 및 객체 검출, 객체 추적이 이뤄진 장면 내의 프레임에 대하여 상기 사용자 UI 모듈(160)의 기능 제공이 이뤄지도록 구성될 수 있다.
또한, 상기 사용자 UI 모듈(160)에 있어서, 상기 객체 위치 DB(180) 또는 객체 정보 DB(190)에 저장된 정보의 사용자 제공 및 수정 편집 정보 입력은, 상기 비디오계층 DB(170)에 저장된 구조화된 비디오 계층에 따라 장면-샷-프레임의 계층적 접근으로 이뤄질 수 있다.
하이퍼 비디오 정보 파일 제작장치(1000)는 또한, 상기 객체 위치 DB와 객체 정보 DB 내용을 매핑하여 하이퍼 비디오 정보 파일을 생성하는 기능을 적어도 수행하는 제어 모듈(100)을 구비한다. 제어 모듈(100)은 상기 기능과 함께, 본 실시예의 하이퍼 비디오 정보 파일 제작장치(1000)의 전반적인 동작 제어를 수행한다.
한편, 본 실시예의 하이퍼 비디오 정보 파일 제작장치(1000)는, 검출된 각 대표 프레임들에 포함된 얼굴 영역을 검출하는 얼굴 영역 검출 모듈(120)을 구비한다.
하이퍼 비디오 정보 파일 제작장치(1000)는 또한, 상기 검출된 얼굴 영역 중 유사한 얼굴들로 얼굴 그룹화를 진행하여 객체 위치 DB(180)에 저장하는 얼굴 그룹화 모듈(130)을 구비한다.
본 실시예의 하이퍼 비디오 정보 파일 제작장치(1000)에 있어서 바람직하게, 상기 대표 프레임은 각 샷의 시작 프레임을 기준으로 초반부에 해당하는 설정 범위 내의 프레임을 사용하되, 첫 프레임을 사용하지 않는다.
본 실시예의 하이퍼 비디오 정보 파일 제작장치(1000)에 있어서 바람직하게, 상기 객체 정보 DB는 객체 목록을 트리 구조로 관리한다.
도 3은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 전체 흐름도이다.
도시된 바와 같이 본 실시예에 의한 하이퍼 비디오 제작방법은, 제작 과정의 시작 단계(S10)로부터 출발하여, 비디오 파일 입력 단계(S20) 및 장면 그룹화 단계(S30), 얼굴 영역 검출 단계(S40), 얼굴 그룹화 단계(S50), 객체 검출 단계(S60), 객체 추적 단계(S70), 객체 정보 입력 단계(S80), 결과물 생성(S90), FLV(Flash Video) 및 XML(Extensible Mark-up Language) 변환 출력 단계(S92)를 거쳐 종료 단계(S94)로 이뤄진다.
도 4는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 장면 그룹화 단계의 흐름도로서, 도면을 참조하여 장면 그룹화 단계(S30)를 상세하게 설명한다.
입력된 비디오 파일로부터 프레임들을 추출한다(S310). 이러한 과정은 예를 들어, 사용자가 대상이 되는 비디오 파일에 대한 프로젝트를 생성한 후, DirectX의 샘플 그래버(SampleGrabber)를 이용하여 비디오 파일에서 프레임들을 추출하는 방식으로 이뤄질 수 있다. 이렇게 비디오 파일에서 프레임 추출을 DirectX 방식으로 진행하게 되면, 임의의 형식의 코덱(codec)에 대하여도 DirectX 필터를 지원하는 경우라면 하이퍼 비디오 제작장치에서 이용할 수 있다.
추출된 프레임들에서 샷 경계를 검출하고(S320~S340), 검출된 각 샷 별로 대표 프레임을 추출하며, 샷 및 대표 프레임에 관한 정보를 비디오계층 DB에 저장한다(S350).
이때, 상기 대표 프레임은 각 샷의 시작 프레임을 기준으로 초반부에 해당하는 설정 범위 내의 프레임을 사용하되, 첫 프레임을 사용하지 않는 것이 바람직하다. 이렇게 첫 프레임을 사용하지 않는 이유는 페이드 샷(fade shot) 인 경우에는 샷의 첫 프레임이 깨끗하지 못할 수 있기 때문이다. 바람직하게는 샷의 시작 프레임에서부터 5 프레임 이후의 프레임을 사용하되, 초반부(예, 6 프레임)에 해당하는 프레임을 사용하는 것이 바람직하다.
이 과정에서, 상기 샷 경계 검출(S320~S340)은, 추출된 각 프레임과 이전 프레임과의 변화도를 측정하고(S320), 변화도가 제1 임계값을 초과하는 경우(S330)에 해당 프레임을 샷 경계로 검출(S340)하는 방식으로 이뤄진다.
프레임 간의 변화도는 프레임 간의 거리로 볼 수 있다. 기존에 알려진 프레임 간 거리를 정량적으로 계산하기 위한 대표적인 방법들로서 화소점 기반 방법, 블록 기반 방법, 색상 정보에 기초한 방법들이 있다.
바람직하게, 본 실시예에서는 색상 정보에 기초한 방법을 사용한다. 일반적인 색상 정보에 기초한 방법은 우선 여러 가지 색공간 RGB, HSV, YIQ, L*a*b*, L*u*v* 혹은 Gray 공간 에서의 색상히스토그램을 구성하고, 인접한 프레임에서의 색상히스토그램 간 거리를 계산하여, 어떤 임계치(T)와 비교하는 방식으로 이뤄진다.
이러한 프레임 간의 변화도 측정 방법에 관하여는, T. Y. Liu, K. T. Lo, X. D. Zhang, and J. Feng의 논문, "A new cut detection algorithm with constant false-alarm ratio for video segmentation"(J. Vis. Commun. Image R., 15(2): 132-144, 2004.)와, R.A.Joyce and B.Liu의 논문, "Temporal Segmentation of Video Using Frame and Histogram Space"(IEEE Trans. Multimedia, vol.8, no.1, pp.130-140 (2006))등을 통해 이해될 수 있다.
일예를 들면, 프레임에서의 색상히스토그램(H)은 다음과 같이 구할 수 있다.
H(m) = (m 색상을 가지는 화소점의 개수) / (전체 화소점의 개수), (m = 1...M이며, M은 RGB 색공간에서 표현 가능한 색상값)
이때 두 프레임 a 와 b 사이 거리는 하기 수학식1과 같이 계산한다.
[수학식1]
Figure pat00001
(단, : 프레임 a 에서의 색상히스토그램,
Figure pat00003
: 프레임 b 에서의 색상히스토그램,
D(a, b): 프레임 a 와 b 사이 거리)
바람직한 일예로서, 상기 변화도는 각 프레임 별로 계산된 색상히스토그램 간의 거리값이 사용되며, 상기 제1 임계값(T(i))은 i 번째 프레임에 대하여 하기 수학식2로 능동적으로 정의된다.
[수학식2]
Figure pat00004
(단, μ(i) : i 번째 프레임에서의 색상히스토그램 거리값 평균,
σ(i) : i 번째 프레임에서의 색상히스토그램 거리값 표준편차,
α : 가중치(상수))
상기 거리값 평균과 표준편차를 계산하기 위하여 i 번째 프레임에서 어떤 일정한 윈도우 구역을 설정하고 이 윈도우 구역 내에서 평균과 표준편차를 계산할 수 있다. 또한, 상기 가중치 α = 3 으로 설정하면 확률 및 수리통계학에서의 '3σ법칙'에 따라 샷 경계를 특이값으로 추출해낼 수 있다.
이와 관련하여, 도 9는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 샷 경계 검출을 설명하기 위한 참고도로서, 상기 샷 경계가 검출되는 상태를 예시한다.
이후, 각 샷들 중 유사한 샷들을 하나의 장면으로 그룹화하고, 상기 프레임 및 샷, 장면이 구조화된 비디오 계층 구조 정보를 생성하여 비디오계층 DB에 저장한다(S360~S380). 이러한 장면 그룹화는 사용자의 접근을 편리하게 하기 위하여 이용된다. 즉, 비디오 파일의 내용이 길어서 샷이 수백 개 이상 검출된 경우, 장면을 사용하지 않으면 많은 샷 들을 일일이 조사하는데 많은 시간이 소비되게 되는데, 유사한 샷들을 장면으로 그룹화하면, 사용자의 접근조작이 장면->샷->프레임으로 계층적으로 보다 편리하게 진행될 수 있다.
상기 과정에서 바람직하게, 장면 그룹화(S360~S380)는, 각 샷의 대표 프레임 별로 색상히스토그램을 구하고, 각 샷의 대표 프레임에 대하여, 전후 양방향으로 인접하는 소정 갯수의 인접 샷의 대표 프레임들과의 상호 유사도를 구하며(S360), 상기 인접 샷들로부터 상기 상호 유사도에 비례하여 받는 인력비가 설정된 제2임계치를 초과하는 경우에(S370), 해당 대표 프레임이 포함된 샷을 새로운 장면의 시작으로 추가하여 상기 비디오계층 DB에 저장하는 방식으로 이뤄진다(S380).
보다 상세한 일예를 설명하면, 샷들의 유사도를 정량적으로 평가하기 위하여 샷의 대표 프레임들에서의 색상히스토그램에 기초하여 하기 수학식3과 같이 계산되는 상호 유사도를 이용한다.
[수학식3]
Figure pat00005
(단,
Figure pat00006
: 샷 a 의 대표 프레임에서의 색상히스토그램,
Figure pat00007
: 샷 b 의 대표 프레임에서의 색상히스토그램,
w: 가중치(
Figure pat00008
),
d: 샷 a 와 b 사이 최소거리(이전 샷의 끝 프레임에서부터 다음 샷의 시작 프레임까지 거리,
C: 샷의 길이를 규정하는 상수,
Cor(a,b): 샷 a 와 b 사이 상호 유사도)
도 10은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 연속 샷 열에서의 인력관계를 설명하기 위한 참고도로서, 도시된 것처럼, 연속적인 샷들의 열에서 하나의 주목하는 샷은 인접한 3개의 샷으로부터 상호 유사도에 비례하는 인력을 받는다고 가정할 수 있다. 이때, 주목하는 샷 i 에서의 인력비는 하기 수학식4와 같이 계산한다.
[수학식4]
R(i) = (right(i) + right(i + 1)) / ((left(i) + left(i + 1))
(단, left(i) = max{Cor(i, i - 1), Cor(i, i - 2), Cor(i, i - 3)},
left(i + 1) = max{Cor(i + 1, i - 1), Cor(i + 1, i - 2)},
right(i) = max{Cor(i, i + 1), Cor(i, i + 2), Cor(i, i + 3)}
right(i + 1) = max{Cor(i + 1, i + 2), Cor(i + 1, i + 3), Cor(i + 1, i + 4)})
이와 같이 주목하는 샷 i 에서의 인력비 R(i)를 계산하면 미리 정의한 임계치(T)에 따라서 판정식 'R(i) > T AND R(i) > R(i - 1) AND R(i) > R(i + 1)'를 만족하는 경우 샷 i 를 새로운 장면의 시작으로 설정하게 된다. 위의 판정식을 만족하지 않는 경우에는 샷 i 를 이전 장면으로 추가한다.
도 5는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 얼굴 검출 단계의 흐름도, 도 6은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 얼굴 그룹화 단계의 흐름도로서, 도면을 참조하여 얼굴 영역 검출 단계(S40) 및 얼굴 그룹화 단계(S50)를 상세하게 설명한다.
본 단계에서는, 검출된 각 대표 프레임들에 포함된 얼굴 영역을 검출(S40)하여 상기 검출된 얼굴 영역 중 유사한 얼굴들로 얼굴 그룹화를 진행하여 객체 위치 DB에 저장하며(S50), 상기 얼굴 그룹화된 각 얼굴 영역을 추적 대상 객체로 하여 후술하는 객체 추적 단계(S70)를 진행한다. 일반 객체 검출은 검출하려는 대상 객체를 사용자가 지정하는 방식을 취하는데 비해, 얼굴 검출은 장면 그룹화 시에 대표 프레임에서 자동으로 진행하게 되는데, 이러한 방식은 작업의 자동화 정도와 효율성을 더욱 높이는 장점을 제공한다.
먼저, 얼굴 영역 검출 단계(S40)를 살펴 보면, 검출된 각 대표 프레임들에 포함된 얼굴 영역을 검출한다(S410~S430).
검출된 얼굴 영역이 있는 경우(S440)에 해당 얼굴 영역을 미지얼굴 목록에 추가 저장한다(S450).
상기 검출된 얼굴 영역과 유사한 얼굴이 객체 위치 DB에 존재하는 것으로 판단한 경우(S460), 해당 얼굴 영역을 객체 위치 DB의 해당 얼굴 그룹에 추가 등록한다(S470).
기존에 알려진 얼굴 검출 방법들로서, 지식기반 방법(Knowledge-based), 특징기반방법(feature-based), 형판(템플릿)(template-matching) 정합 방법, 외형기반(Appearance-based)방법 등이 있다.
바람직하게, 본 실시예에서는 외형기반(Appearance-based)방법을 사용한다. 외형기반방법은 상이한 영상들에서 얼굴영역과 비얼굴영역을 획득하며, 획득된 영역들을 학습하여 학습모델을 만들고, 입력 영상과 학습모델자료를 비교하여 얼굴을 검출하는 방법으로서, 정면 및 측면 얼굴 검출에 대해서는 비교적 성능이 높은 방법으로 알려져 있다.
이러한 얼굴검출에 관하여는, Jianxin Wu, S. Charles Brubaker, Matthew D. Mullin, and James M. Rehg의 논문, "Fast Asymmetric Learning for Cascade Face Detection,"(IEEE Tran- saction on Pattern Analysis and Machine Intelligence, Vol. 30, No. 3, MARCH 2008.)와, Paul Viola, Michael Jones, "Rapid Object Detection using a Boosted Cascade of Simple Features"(Accepted Conference on Computer Vision and Pattern Recognition 2001.)등을 통해 이해될 수 있다.
특히, 바람직한 일예로서, 상기 얼굴 영역 검출은, 상기 대표 프레임의 RGB 색 정보로부터 YCbCr 색 모델을 작성하고, 작성된 색 모델에서 색 정보와 밝기 정보를 분리하며, 상기 밝기 정보에 의하여 얼굴후보영역을 검출하는 단계와, 상기 검출된 얼굴후보영역에 대한 4각 특징점 모델을 정의하고, 상기 4각 특징점 모델을 AdaBoost 학습 알고리즘에 의하여 학습시킨 학습자료에 기초하여 얼굴 영역을 검출하는 단계로 이뤄진다. AdaBoost 학습알고리즘은 약분류기의 선형적인 결합을 통하여 최종적으로 높은 검출 성능을 가지는 강분류기를 생성하는 알고리즘으로 알려져 있다.
이와 관련하여, 도 11은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 얼굴영역 검출을 위한 4각 특징점의 개념 예시 사진으로서, 얼굴영역 검출을위하여 4각 특징점이 사용되는 상태를 예시하고 있다.
다음으로, 얼굴 그룹화 단계(S50)에서는, 상기 과정을 통해 모든 대표 프레임에 대한 얼굴 영역 검출이 완료된 경우, 상기 미지얼굴 목록에 저장된 미지얼굴들 중 유사 얼굴들로 얼굴 그룹화를 진행하여(S510) 상기 객체 위치 DB에 저장한다(S520~S530).
얼굴은 일반 객체와 달리 얼굴 그룹화 단계가 추가되어 있는데, 이렇게 그룹화를 진행하고 매 그룹을 얼굴 객체로 자동적으로 설정하여 주면, 인물에 따르는 객체 편집 효율을 높일 수 있다는 장점이 있다. 또한, 이전에 편집한 적이 있는 인물에 대한 특징들을 객체 위치 DB로 출력하였다가 이후 편집 시에 참조하게 되면 같은 인물에 대한 편집을 다시 반복하지 않아도 되므로 편집 효율이 높아지는 장점을 갖게 된다.
기존에 알려진 얼굴 그룹화 방법들로서, 얼굴의 기하학적인 특징인 눈, 코, 입 등의 위치나 크기 또는 이들 간의 거리를 이용하여 얼굴을 인식하는 기하학적 정합방법, 얼굴자료를 데이터베이스에 저장된 형판(템플릿)영상과 비교하여 서로 간의 상관성을 분석하여 얼굴을 인식하는 형판 패턴 정합방법, 신경망(ANN: Arfiti-cial Neural Network)을 이용한 방법, SVM(Support Vector Machine)방법, HMM (Hidden Markov Model)방법 등이 있다.
특히, 형판 패턴 정합방법으로서, 주성분 분석(PCA:Principal Component Analysis)방법, 독립성분 분석(ICA: Independent Component Analysis)방법, 선형판별 분석(LDA: linear dis-criminant Analysis)방법, 2DPCA(2-Dimensional PCA)방법, PCA/LDA 방법, 구성요소기반(DCT/ LDA)방법, 국부적 특징 분석(LFA: Local Feature Analysis)방법 등이 있다.
특히, 바람직한 일예로서, 상기 얼굴 그룹화는, 가보 웨블레트(Gabor wavelet) 변환에 의하여 얼굴 화상의 가보(Gabor) 표현을 추출하고, 비선형 매핑을 하며, 커널(kernel) 공간에서의 선형 판별 분석을 하고, 순차 그룹화 알고리즘에 의한 얼굴 그룹화를 통해 이뤄진다.
가보 웨블레트는 국부적이면서도 식별력이 있는 특징량들을 효과적으로 표현할 수 있으며, 이로 인해 패턴 검출이나 얼굴 인식에서 유용하게 쓰이는 것으로 알려져 있다. 커널 공간에서의 선형 판별 분석(KLDA, GDA)은 선형 판별 분석(LDA)을 커널 공간에서 실현함으로써 인식 능력을 높인 방법이다.
순차 그룹화 알고리즘에서는 커널 공간에서의 선형판별분석에 의해 L차원으로 축소된 특징 벡터들에 의하여 얼굴의 그룹화가 진행되는데, 새로운 얼굴과 이미 그룹화된 매 얼굴들과의 유사도를 계산하는 과정에 의해 이뤄진다.
이러한 얼굴 그룹화에 관하여는, G. Baudat and F. Anouar의 논문, "Generalized discriminant analysis using a kernel approach"(Neu-ral Comput., vol. 12, no. 10, pp. 2385-2404, 2000.)등을 통해 이해될 수 있다.
도 7은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 객체 검출 단계의 흐름도로서, 객체 검출 단계(S60)는 다음과 같이 진행된다.
사용자로부터 임의의 프레임에서 주목하는 객체 영역을 선택 입력받고, 상기 대표 프레임들에서 상기 객체 영역을 검출하여 객체 위치 DB에 저장한다(S610~S650).
이러한 객체 입력 과정에서, 사용자는 임의의 프레임에서 객체를 선택한다. 예를 들어, 대표 프레임뿐만이 아니라 '미디어 재생기 및 작업창'에서 임의의 프레임으로 이동하고, 작업 영역에서 4각 선택 도구로 객체 영역을 선택할 수 있다. 이때 선택된 객체는 새로운 객체로 객체 목록에 추가된다. 이 객체를 이미 추가된 다른 객체로 드래그 앤 드롭(Drag & Drop)을 이용하여 통합시킬 수도 있다.
이렇게 임의의 프레임에서 객체를 선택한 경우, 이후 이 프레임이 포함된 샷 내에서, 이후 연속적인 프레임들에서의 객체 위치를 작업도구창의 '객체 추적'을 클릭하여 추적할 수 있다.
한편, 상기 과정에서 객체 선택은 일반적으로 알려진 공지의 방식이 사용될 수 있다. 예를 들어, 화살표를 마우스로 움직여 관심 객체로 이동시킨 후, 다각형, 원 등의 영역 선택 도형을 그려서 선택하는 방식이 사용될 수 있다.
바람직한 일예로서, 상기 객체 영역 검출은, SIFT(Scale Invariant Feature Transform) 특징량을 검출하고, 확산거리를 이용한 초기 정합을 수행하며, SIFT 서술자를 이용한 최종 정합을 수행하는 과정으로 이뤄진다.
SIFT 특징량 검출은, 예를 들어, 스케일 공간 극값 탐색(Scale-space extrema detection) 및 키포인트 국부화(Keypoint localization), 방향 할당(Orientation assignment), 키포인트 서술자(Keypoint descriptor) 등의 기본계산 단계로 이뤄진다.
이러한 객체 영역 검출에 관하여는, D. Lowe의 논문, "Distinctive Image Features from Scale-Invariant Keypoints"(IJCV, 60(2), pp. 91-110, 2004. 1, 2, 6, 7, 8)과, Haibin Ling, Kazunori Okada의 논문, "Diffusion Distance for Histogram Com-parison"(2006)과, V. Ferrari, T. Tuytelaars, L. van Gool의 논문, "Simultaneous Object Recognition and Segmentation by Image Exploration"(ECCV, 2004.) 등을 통해 이해될 수 있다.
도 8은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 객체 추적 단계의 흐름도이다.
객체 추적 단계(S70)에서는, 상기 각 대표 프레임들에서 검출된 객체의 대표 위치들에서부터 인접한 프레임에서의 위치를 추적하여 객체 위치 DB에 추가 저장한다(S70).
이를 보다 상세하게 보면, 하나의 대표 프레임을 기준으로 다음 프레임을 입력받는다(S710~S730).
상기 다음 프레임이 상기 대표 프레임이 포함된 샷 범위를 벗어나지 않은 것으로 판단된 경우(S740), 해당 프레임 내에서 객체 위치를 추적한다(S750).
상기 다음 프레임이 상기 대표 프레임이 포함된 샷 범위를 벗어난 것으로 판단된 경우(S740)에는, 다음 대표 프레임을 입력받고 상기 S710 이하 단계로 다시 진행한다.
객체 위치를 추적(S750)한 결과, 추적된 객체가 있는 경우(S760), 추적된 해당 객체의 위치를 객체 위치 DB에 추가 저장한다(S770).
기존에 알려진 객체 추적 방법들로서, 저수준해석(Low-Level Analysis), 특징해석(Feature Analysis), 능동형상모델(Active Shape Models), 선형부분공간(Linear Subspace Methods), 신경망, 통계적방법 등이 있다.
특히, 바람직한 일예로서, 상기 객체 추적은, 상기 대표 프레임에서 객체의 대표 위치 영역을 선택받는 단계와, 선택된 객체의 위치 영역과 상기 대표 프레임에 기초하여 객체의 색상 모형화를 진행하는 단계와, 추적을 위하여 다음 프레임이 입력되면 Mean Shift 방법에 의해 객체 움직임이 추적되는 단계와, 탐색 윈도우의 위치를 객체의 위치로 결정하고, 객체의 크기 변화를 추정하는 단계로 이뤄진다. Mean Shift 방법은 색상에 기초하여 객체를 모형화하고 그러한 색상의 확률적 분산의 최빈값을 찾기 위해 그의 그라디엔트를 상승시키는 방법이다.
다음으로, 상기와 같은 과정을 통해 객체 추적이 이뤄진 후, 객체 정보 입력 단계(S80)에서는 사용자로부터 입력된 객체 정보를 객체 정보 DB에 저장한다. 상기 객체 정보로서는 예를 들어, 해당 객체와 관련된 화상, 본문, 음성, 비디오, 웹주소(URL) 등이 포함될 수 있다.
상기 객체 정보 DB는 객체 목록을 트리 구조로 관리한다. 예를 들어, 파일 시스템(file system)에서 디렉토리(directory)와 파일(file)의 관계와 같이, 가상적인 객체 그룹(디렉토리에 대응)을 트리 구조로 만들고, 여기에 객체(파일에 대응)들을 보관한다. 이와 같이 많은 객체 들을 트리 구조로 관리하면 객체 관리 효율을 높일 수 있다. 이러한 트리 구조는 하기 표 1의 형태로 예시될 수 있다.
전체 객체
얼굴
배우
홍길동
황비홍
가수
황진이
바지
청바지
... ... ...
한편, 객체 정보 입력 단계(S80)에서는 바람직하게, 상기 객체 위치 DB 또는 객체 정보 DB에 저장된 정보를 사용자에게 제공하고, 제공한 정보에 대한 수정 편집 정보를 입력받는 경우에 해당 수정 편집 정보를 상기 객체 위치 DB 또는 객체 정보 DB에 수정 저장하는 수동 편집이 이뤄질 수 있다.
예를 들면, 자동 객체 추적 또는 자동 얼굴 영역 검출에서 검출 결과들은 프레임에서의 객체 위치로 표시된다. 이 객체 위치가 정확하지 않으면 사용자는 예를들어, '미디어 재생기 및 작업창'에서 해당 프레임으로 이동하여 프레임에서의 객체 위치를 마우스로 변경 또는 삭제할 수 있다.
객체 위치는 예를 들어, 프레임에서 회전된 4각형으로 표시되며, 여기에 모서리 4개, 변 4개, 회전 1개 총 9개의 핸들러(handler)가 표시된다. 이 핸들러를 마우스로 움직이거나 객체 위치 내부를 클릭하여 이동시키는 방법으로 위치를 수정할 수 있다. 또한 삭제(delete) 버튼을 눌러 해당 프레임에서 객체 위치를 삭제할 수도 있다.
한편, 얼굴 그룹화에서 서로 다른 얼굴들을 같은 얼굴로 그룹화한 경우에는, 객체 목록에서 해당 얼굴을 선택하고, 화면 일측에 디스플레이된 대표 프레임 목록에서 해당 얼굴을 드래그 앤 드롭(drag & drop)하여 정확한 얼굴 객체로 이동시키거나 삭제 버튼으로 삭제할 수도 있다.
상기 과정에서 또한 바람직하게는, 전체 프레임에 대한 객체 검출 또는 추적이 완료된 상태가 아니더라도, 장면 그룹화 및 객체 검출, 객체 추적이 이뤄진 장면 내의 프레임에 대하여는 상기 수정 편집 정보를 입력받을 수 있다.
이를 보다 상세하게 설명하면, 장면 분할, 객체 검출, 객체 추적과 같은 자동처리들은 시간이 오래 걸린다는 특징이 있다. 이러한 점을 감안하여, 본 실시예의 제작장법에서는 이러한 자동 처리들을 백 그라운드(background) 방식으로 진행하여 놓고, 이 처리가 진행되는 과정에도 사용자가 다른 편집 작업을 할 수 있도록 구성된다.
한편, 바람직하게는, 상기 객체 위치 DB 또는 객체 정보 DB에 저장된 정보의 사용자 제공 및 수정 편집 정보 입력은, 상기 비디오계층 DB에 저장된 구조화된 비디오 계층에 따라 장면-샷-프레임의 계층적 접근으로 이뤄질 수 있다.
다음으로, 결과물 생성 단계(S90)에서는 상기 객체 위치 DB와 객체 정보 DB 내용을 매핑하여 하이퍼 비디오 정보 파일을 생성한다(S90). 상기 하이퍼 비디오 정보 파일은 XML 형식의 메타 자료로 생성된다.
이후, 사용자가 결과물 출력을 진행하면, 비디오 파일을 FLV 형식으로 변환하여, 객체 위치 DB와 객체 정보 DB 내용이 포함된 XML 형식의 메타 자료를 출력하게 된다.
비데오 파일을 FLV형식으로 변환하는 것은 플래쉬(flash)로 만든 단말용 재생기(확장자 *.swf)에서 이 비디오 파일을 디스플레이할 수 있도록 하기 위함이다. 또한, 단말용 재생기를 swf 파일로 하는 것은 웹 브라우저상에서 별도의 추가적인 activeX설치없이 재생할 수 있도록 하기 위함이다.
도 12a 내지 도 22c는 상기 각 단계의 진행에 따른 화면 예이다.
도 12a 및 도 12b는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 샷 경계 변화 시의 변화 전후 시점(#91,#93)의 각 프레임 화면 예, 도 13a 및 도 13b는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 장면 변화 시의 변화 전후 시점(#5350,#5352)의 각 프레임 화면 예, 도 14는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 유사 얼굴로 그룹화된 얼굴들의 예, 도 15는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 사용자가 객체 영역을 선택하는 화면 예, 도 16은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 사용자가 선택한 객체에 대하여 각 대표 프레임에서 객체 검출을 한 화면의 예, 도 17a 내지 도 17c는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 대표 프레임에서 검출된 객체에 대하여 인접 프레임(#404,#420,#479)에서 객체 추적되는 화면의 예, 도 18a 및 도 18b는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 사용자 UI의 기본화면 예, 도 19는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 사용자 UI의 객체 정보 편집 화면 예, 도 20은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 사용자 UI의 객체DB 내보내기 윈도우 화면 예, 도 21은 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 사용자 UI의 미디어 출력 윈도우 화면 예, 도 22a 내지 도 22c는 본 발명의 일 실시예에 의한 하이퍼 비디오 제작방법의 사용자 UI의 객체정보 디스플레이 및 하이퍼링크 화면 예이다.
본 발명의 실시예 들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독가능 기록매체를 포함한다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기록매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
1000: 하이퍼 비디오 정보 파일 제작장치
110: 장면 그룹화 모듈 120: 얼굴 영역 검출 모듈
130: 얼굴 그룹화 모듈 140: 객체 검출 모듈
150: 객체 추적 모듈 160: 사용자 UI 모듈
170: 비디오계층 DB 180: 객체 위치 DB
190: 객체 정보 DB

Claims (27)

  1. 비디오 파일에 포함된 인물이나 객체의 부가 정보가 정보 파일로 제작되어 하이퍼 링크로 연결되는 하이퍼 비디오에 있어서, 정보 파일 제작장치에서 실행되는 하이퍼 비디오 정보 파일 제작방법으로서,
    (a) 입력된 비디오 파일로부터 프레임들을 추출하는 단계;
    (b) 추출된 프레임들에서 샷 경계를 검출하고, 검출된 각 샷 별로 대표 프레임을 추출하며, 샷 및 대표 프레임에 관한 정보를 비디오계층 DB에 저장하는 단계;
    (c) 각 샷들 중 유사한 샷들을 하나의 장면으로 그룹화하고, 상기 프레임 및 샷, 장면이 구조화된 비디오 계층 구조 정보를 생성하여 비디오계층 DB에 저장하는 단계;
    (d) 사용자로부터 임의의 프레임에서 주목하는 객체 영역을 선택 입력받고, 상기 대표 프레임들에서 상기 객체 영역을 검출하여 객체 위치 DB에 저장하는 단계;
    (e) 상기 각 대표 프레임들에서 검출된 객체의 대표 위치들에서부터 인접한 프레임에서의 위치를 추적하여 객체 위치 DB에 추가 저장하는 단계;
    (f) 사용자로부터 입력된 객체 정보를 객체 정보 DB에 저장하는 단계; 및
    (g) 상기 객체 위치 DB와 객체 정보 DB 내용을 매핑하여 하이퍼 비디오 정보 파일을 생성하는 단계;를 포함하여 구성된 하이퍼 비디오 정보 파일 제작방법.
  2. 제1항에 있어서,
    상기 (b) 단계의 샷 경계 검출은,
    추출된 각 프레임과 이전 프레임과의 변화도를 측정하고, 변화도가 제1 임계값을 초과하는 경우, 해당 프레임을 샷 경계로 검출하는 방식으로 이뤄지는 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  3. 제2항에 있어서,
    상기 변화도는 각 프레임 별로 계산된 색상히스토그램 간의 거리값이며,
    상기 제1 임계값(T(i))은 i 번째 프레임에 대하여 하기 수학식2로 정의되는 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
    [수학식2]
    Figure pat00009

    (단, μ(i) : i 번째 프레임에서의 색상히스토그램 거리값 평균,
    σ(i) : i 번째 프레임에서의 색상히스토그램 거리값 표준편차,
    α : 가중치(상수))
  4. 제1항에 있어서,
    상기 (c) 단계의 장면 그룹화는,
    각 샷의 대표 프레임 별로 색상히스토그램을 구하고,
    각 샷의 대표 프레임에 대하여, 전후 양방향으로 인접하는 소정 갯수의 인접 샷의 대표 프레임들과의 상호 유사도를 구하며,
    상기 인접 샷들로부터 상기 상호 유사도에 비례하여 받는 인력비가 설정된 제2임계치를 초과하는 경우에, 해당 대표 프레임이 포함된 샷을 새로운 장면의 시작으로 추가하여 상기 비디오계층 DB에 저장하는 방식으로 이뤄지는 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  5. 제1항에 있어서,
    상기 (d) 단계의 객체 영역 검출은,
    SIFT(Scale Invariant Feature Transform) 특징량을 검출하고, 확산거리를 이용한 초기 정합을 수행하며, SIFT 서술자를 이용한 최종 정합을 수행하는 과정으로 이뤄지는 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  6. 제1항에 있어서,
    상기 (e) 단계는,
    (e1) 하나의 대표 프레임을 기준으로 다음 프레임을 입력받는 단계;
    (e2) 상기 다음 프레임이 상기 대표 프레임이 포함된 샷 범위를 벗어나지 않은 것으로 판단된 경우, 해당 프레임 내에서 객체 위치를 추적하는 단계;
    (e3) 상기 다음 프레임이 상기 대표 프레임이 포함된 샷 범위를 벗어난 것으로 판단된 경우, 다음 대표 프레임을 입력받고 상기 (e1) 단계로 진행하는 단계;
    (e4) 상기 (e2) 단계에서 추적된 객체가 있는 경우, 추적된 해당 객체의 위치를 객체 위치 DB에 추가 저장하는 단계;를 포함하여 구성된 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  7. 제1항에 있어서,
    상기 (e) 단계의 객체 추적은,
    상기 대표 프레임에서 객체의 대표 위치 영역을 선택받는 단계;
    선택된 객체의 위치 영역과 상기 대표 프레임에 기초하여 객체의 색상 모형화를 진행하는 단계;
    추적을 위하여 다음 프레임이 입력되면 Mean Shift 방법에 의해 객체 움직임이 추적되는 단계; 및
    탐색 윈도우의 위치를 객체의 위치로 결정하고, 객체의 크기 변화를 추정하는 단계;로 이뤄지는 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  8. 제1항에 있어서,
    상기 (c) 단계 이후에,
    (h) 검출된 각 대표 프레임들에 포함된 얼굴 영역을 검출하여 상기 검출된 얼굴 영역 중 유사한 얼굴들로 얼굴 그룹화를 진행하여 객체 위치 DB에 저장하며, 상기 얼굴 그룹화된 각 얼굴 영역을 추적 대상 객체로 하여 상기 (e) 단계로 진행하는 단계;를 더 포함하여 구성된 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  9. 제8항에 있어서,
    상기 (h) 단계는,
    (h1) 검출된 각 대표 프레임들에 포함된 얼굴 영역을 검출하는 단계;
    (h2) 검출된 얼굴 영역이 있는 경우에 해당 얼굴 영역을 미지얼굴 목록에 저장하는 단계;
    (h3) 상기 검출된 얼굴 영역과 유사한 얼굴이 객체 위치 DB에 존재하는 것으로 판단한 경우, 해당 얼굴 영역을 객체 위치 DB의 해당 얼굴 그룹에 추가 등록하는 단계;
    (h4) 모든 대표 프레임에 대한 얼굴 영역 검출이 완료된 경우, 상기 미지얼굴 목록에 저장된 미지얼굴들 중 유사 얼굴들로 얼굴 그룹화를 진행하여 상기 객체 위치 DB에 저장하는 단계; 및
    (h5) 상기 얼굴 그룹화된 각 얼굴 영역을 추적 대상 객체로 하여 상기 (e) 단계로 진행하는 단계;를 포함하여 구성된 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  10. 제8항에 있어서,
    상기 얼굴 영역 검출은,
    상기 대표 프레임의 RGB 색 정보로부터 YCbCr 색 모델을 작성하고, 작성된 색 모델에서 색 정보와 밝기 정보를 분리하며, 상기 밝기 정보에 의하여 얼굴후보영역을 검출하는 단계; 및
    상기 검출된 얼굴후보영역에 대한 4각 특징점 모델을 정의하고, 상기 4각 특징점 모델을 AdaBoost 학습 알고리즘에 의하여 학습시킨 학습자료에 기초하여 얼굴 영역을 검출하는 단계;로 이뤄지는 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  11. 제8항에 있어서,
    상기 얼굴 그룹화는,
    가보 웨블레트(Gabor wavelet) 변환에 의하여 얼굴 화상의 가보(Gabor) 표현을 추출하고, 비선형 매핑을 하며, 커널(kernel) 공간에서의 선형 판별 분석을 하고, 순차 그룹화 알고리즘에 의한 얼굴 그룹화를 통해 이뤄지는 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  12. 제1항에 있어서,
    (i) 상기 객체 위치 DB 또는 객체 정보 DB에 저장된 정보를 사용자에게 제공하고, 제공한 정보에 대한 수정 편집 정보를 입력받는 경우에 해당 수정 편집 정보를 상기 객체 위치 DB 또는 객체 정보 DB에 수정 저장하는 단계;를 더 포함하여 구성된 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  13. 제12항에 있어서,
    전체 프레임에 대한 객체 검출 또는 추적이 완료된 상태가 아니더라도, 장면 그룹화 및 객체 검출, 객체 추적이 이뤄진 장면 내의 프레임에 대하여 상기 (i) 단계가 이뤄질 수 있도록 구성된 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  14. 제12항에 있어서,
    상기 객체 위치 DB 또는 객체 정보 DB에 저장된 정보의 사용자 제공 및 수정 편집 정보 입력은, 상기 비디오계층 DB에 저장된 구조화된 비디오 계층에 따라 장면-샷-프레임의 계층적 접근으로 이뤄질 수 있도록 구성된 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  15. 제1항에 있어서,
    상기 대표 프레임은 각 샷의 시작 프레임을 기준으로 초반부에 해당하는 설정 범위 내의 프레임을 사용하되, 첫 프레임을 사용하지 않는 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  16. 제1항에 있어서,
    상기 객체 정보 DB는 객체 목록을 트리 구조로 관리하는 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  17. 제1항에 있어서,
    상기 하이퍼 비디오 정보 파일은 XML 형식의 메타 자료로 생성되는 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작방법.
  18. 비디오 파일에 포함된 인물이나 객체의 부가 정보가 정보 파일로 제작되어 하이퍼 링크로 연결되는 하이퍼 비디오에 있어서, 정보 파일 제작장치에서 실행되는 하이퍼 비디오 정보 파일 제작방법으로서,
    입력된 비디오 파일로부터 추출된 프레임들에서 샷 경계를 검출하고, 검출된 각 샷 별로 대표 프레임을 추출하며, 샷 및 대표 프레임에 관한 정보를 비디오계층 DB에 저장하는 단계;
    각 샷들 중 유사한 샷들을 하나의 장면으로 그룹화하고, 상기 프레임 및 샷, 장면이 구조화된 비디오 계층 구조 정보를 생성하여 비디오계층 DB에 저장하는 단계;
    각 대표 프레임들에 포함된 얼굴 영역을 검출하여 상기 검출된 얼굴 영역 중 유사한 얼굴들로 얼굴 그룹화를 진행하여 객체 위치 DB에 저장하며, 사용자로부터 선택 입력된 객체 영역을 상기 대표 프레임에서 검출하고, 인접한 프레임에서 상기 객체와 그룹화된 얼굴의 위치를 추적하여 객체 위치 DB에 저장하는 단계;
    사용자로부터 입력된 객체 정보를 객체 정보 DB에 저장하고, 상기 객체 위치 DB와 객체 정보 DB 내용을 매핑하여 하이퍼 비디오 정보 파일을 생성하는 단계;를 포함하여 구성된 하이퍼 비디오 정보 파일 제작방법.
  19. 제1항 내지 제18항 중의 어느 한 항에 기재된 방법의 각 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  20. 비디오 파일에 포함된 인물이나 객체의 부가 정보가 하이퍼 링크로 연결되는 하이퍼 비디오를 구성하기 위한 하이퍼 비디오 정보 파일 제작장치로서,
    입력된 비디오 파일로부터 프레임들을 추출하는 기능과, 추출된 프레임들에서 샷 경계를 검출하고, 검출된 각 샷 별로 대표 프레임을 추출하며, 샷 및 대표 프레임에 관한 정보를 비디오계층 DB에 저장하는 기능과, 각 샷들 중 유사한 샷들을 하나의 장면으로 그룹화하고, 상기 프레임 및 샷, 장면이 구조화된 비디오 계층 구조 정보를 생성하여 비디오계층 DB에 저장하는 기능을 수행하는 장면 그룹화 모듈;
    상기 대표 프레임들에서 상기 객체 영역을 검출하여 객체 위치 DB에 저장하는 기능을 수행하는 객체 검출 모듈;
    상기 각 대표 프레임들에서 검출된 객체의 대표 위치들에서부터 인접한 프레임에서의 위치를 추적하여 객체 위치 DB에 추가 저장하는 객체 추적 모듈;
    사용자로부터 임의의 프레임에서 주목하는 객체 영역을 선택 입력받는 기능과, 사용자로부터 입력된 객체 정보를 객체 정보 DB에 저장하는 기능을 수행하는 사용자 UI 모듈; 및
    상기 객체 위치 DB와 객체 정보 DB 내용을 매핑하여 하이퍼 비디오 정보 파일을 생성하는 기능을 적어도 수행하는 제어 모듈;을 포함하여 구성된 하이퍼 비디오 정보 파일 제작장치.
  21. 제20항에 있어서,
    검출된 각 대표 프레임들에 포함된 얼굴 영역을 검출하는 얼굴 영역 검출 모듈;및
    상기 검출된 얼굴 영역 중 유사한 얼굴들로 얼굴 그룹화를 진행하여 객체 위치 DB에 저장하는 얼굴 그룹화 모듈;을 더 포함하여 구성된 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작장치.
  22. 제20항에 있어서,
    상기 사용자 UI 모듈은,
    상기 객체 위치 DB 또는 객체 정보 DB에 저장된 정보를 사용자에게 제공하고, 제공한 정보에 대한 수정 편집 정보를 입력받는 기능을 더 구비하는 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작장치.
  23. 제22항에 있어서,
    전체 프레임에 대한 객체 검출 또는 추적이 완료된 상태가 아니더라도, 장면 그룹화 및 객체 검출, 객체 추적이 이뤄진 장면 내의 프레임에 대하여 상기 사용자 UI 모듈의 기능 제공이 이뤄질 수 있도록 구성된 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작장치.
  24. 제22항에 있어서,
    상기 객체 위치 DB 또는 객체 정보 DB에 저장된 정보의 사용자 제공 및 수정 편집 정보 입력은, 상기 비디오계층 DB에 저장된 구조화된 비디오 계층에 따라 장면-샷-프레임의 계층적 접근으로 이뤄질 수 있도록 구성된 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작장치.
  25. 제20항에 있어서,
    상기 대표 프레임은 각 샷의 시작 프레임을 기준으로 초반부에 해당하는 설정 범위 내의 프레임을 사용하되, 첫 프레임을 사용하지 않는 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작장치.
  26. 제20항에 있어서,
    상기 객체 정보 DB는 객체 목록을 트리 구조로 관리하는 것을 특징으로 하는 하이퍼 비디오 정보 파일 제작장치.
  27. 비디오 파일에 포함된 인물이나 객체의 부가 정보가 하이퍼 링크로 연결되는 하이퍼 비디오를 구성하기 위한 하이퍼 비디오 정보 파일 제작장치로서,
    입력된 비디오 파일로부터 추출된 프레임들에서 샷 경계를 검출하고, 검출된 각 샷 별로 대표 프레임을 추출하며, 샷 및 대표 프레임에 관한 정보를 비디오계층 DB에 저장하는 기능;
    각 샷들 중 유사한 샷들을 하나의 장면으로 그룹화하고, 상기 프레임 및 샷, 장면이 구조화된 비디오 계층 구조 정보를 생성하여 비디오계층 DB에 저장하는 기능;
    각 대표 프레임들에 포함된 얼굴 영역을 검출하여 상기 검출된 얼굴 영역 중 유사한 얼굴들로 얼굴 그룹화를 진행하여 객체 위치 DB에 저장하며, 사용자로부터 선택 입력된 객체 영역을 상기 대표 프레임에서 검출하고, 인접한 프레임에서 상기 객체와 그룹화된 얼굴의 위치를 추적하여 객체 위치 DB에 저장하는 기능; 및
    사용자로부터 입력된 객체 정보를 객체 정보 DB에 저장하고, 상기 객체 위치 DB와 객체 정보 DB 내용을 매핑하여 하이퍼 비디오 정보 파일을 생성하는 기능;을 적어도 실행하도록 구성된 하이퍼 비디오 정보 파일 제작장치.
KR1020110054169A 2011-06-03 2011-06-03 하이퍼 비디오 정보 파일 제작장치 및 제작방법, 그 기록매체 KR101313285B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110054169A KR101313285B1 (ko) 2011-06-03 2011-06-03 하이퍼 비디오 정보 파일 제작장치 및 제작방법, 그 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110054169A KR101313285B1 (ko) 2011-06-03 2011-06-03 하이퍼 비디오 정보 파일 제작장치 및 제작방법, 그 기록매체

Publications (2)

Publication Number Publication Date
KR20120134936A true KR20120134936A (ko) 2012-12-12
KR101313285B1 KR101313285B1 (ko) 2013-09-30

Family

ID=47903054

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110054169A KR101313285B1 (ko) 2011-06-03 2011-06-03 하이퍼 비디오 정보 파일 제작장치 및 제작방법, 그 기록매체

Country Status (1)

Country Link
KR (1) KR101313285B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150141059A (ko) * 2014-06-09 2015-12-17 삼성전자주식회사 동영상의 썸네일 영상을 제공하는 장치 및 방법
WO2016024806A1 (en) * 2014-08-14 2016-02-18 Samsung Electronics Co., Ltd. Method and apparatus for providing image contents
KR20160021016A (ko) * 2014-08-14 2016-02-24 삼성전자주식회사 영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치
KR101602878B1 (ko) * 2014-09-26 2016-03-11 삼성전자주식회사 영상 처리 방법 및 그 장치
US10089330B2 (en) 2013-12-20 2018-10-02 Qualcomm Incorporated Systems, methods, and apparatus for image retrieval

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100348357B1 (ko) 2000-12-22 2002-08-09 (주)버추얼미디어 하이퍼링크 비디오를 위한 임의 객체의 효과적인 추적 장치 및 방법
KR20010035099A (ko) * 2000-12-22 2001-05-07 유명현 장면 전환 자동 검출을 이용한 스트리밍 하이퍼비디오시스템 및 그 제어 방법
KR100486709B1 (ko) 2002-04-17 2005-05-03 삼성전자주식회사 객체기반 대화형 동영상 서비스 시스템 및 그 방법
KR20050041761A (ko) * 2003-10-31 2005-05-04 학교법인 정석학원 샷 전환 프레임 검출방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089330B2 (en) 2013-12-20 2018-10-02 Qualcomm Incorporated Systems, methods, and apparatus for image retrieval
US10346465B2 (en) 2013-12-20 2019-07-09 Qualcomm Incorporated Systems, methods, and apparatus for digital composition and/or retrieval
KR20150141059A (ko) * 2014-06-09 2015-12-17 삼성전자주식회사 동영상의 썸네일 영상을 제공하는 장치 및 방법
WO2016024806A1 (en) * 2014-08-14 2016-02-18 Samsung Electronics Co., Ltd. Method and apparatus for providing image contents
KR20160021016A (ko) * 2014-08-14 2016-02-24 삼성전자주식회사 영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치
US9684818B2 (en) 2014-08-14 2017-06-20 Samsung Electronics Co., Ltd. Method and apparatus for providing image contents
KR101602878B1 (ko) * 2014-09-26 2016-03-11 삼성전자주식회사 영상 처리 방법 및 그 장치

Also Published As

Publication number Publication date
KR101313285B1 (ko) 2013-09-30

Similar Documents

Publication Publication Date Title
Wang et al. Semi-supervised video object segmentation with super-trajectories
US10522186B2 (en) Apparatus, systems, and methods for integrating digital media content
Wang et al. Edge preserving and multi-scale contextual neural network for salient object detection
Wang et al. A robust and efficient video representation for action recognition
Kao et al. Visual aesthetic quality assessment with a regression model
US9047376B2 (en) Augmenting video with facial recognition
KR20190116199A (ko) 영상 데이터 처리 방법, 장치 및 판독 가능 저장 매체
Zhu et al. Targeting accurate object extraction from an image: A comprehensive study of natural image matting
Bianco et al. Predicting image aesthetics with deep learning
KR101313285B1 (ko) 하이퍼 비디오 정보 파일 제작장치 및 제작방법, 그 기록매체
Lai et al. Video object retrieval by trajectory and appearance
Li et al. Videography-based unconstrained video analysis
US9549162B2 (en) Image processing apparatus, image processing method, and program
KR20090093904A (ko) 장면 변화에 강인한 멀티미디어 영상 분석 장치 및 그 방법과, 그를 이용한 객체 기반 멀티미디어 편집 시스템
US20230140369A1 (en) Customizable framework to extract moments of interest
Gunawardena et al. Real-time automated video highlight generation with dual-stream hierarchical growing self-organizing maps
Xu et al. Action recognition by saliency-based dense sampling
Beugher et al. A semi-automatic annotation tool for unobtrusive gesture analysis
Ribeiro et al. Deep learning in digital marketing: brand detection and emotion recognition
Ghosh et al. SmartTennisTV: Automatic indexing of tennis videos
Wang et al. Learning an aesthetic photo cropping cascade
Zhou et al. Modeling perspective effects in photographic composition
Helm et al. Video Shot Analysis for Digital Curation and Preservation of Historical Films.
Guo Application of image recognition method based on diffusion equation in film and television production
Rupprecht et al. Learning without prejudice: Avoiding bias in webly-supervised action recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
N231 Notification of change of applicant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161121

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170922

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180801

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190807

Year of fee payment: 7