KR20160035106A - 영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록매체 - Google Patents

영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록매체 Download PDF

Info

Publication number
KR20160035106A
KR20160035106A KR1020140124959A KR20140124959A KR20160035106A KR 20160035106 A KR20160035106 A KR 20160035106A KR 1020140124959 A KR1020140124959 A KR 1020140124959A KR 20140124959 A KR20140124959 A KR 20140124959A KR 20160035106 A KR20160035106 A KR 20160035106A
Authority
KR
South Korea
Prior art keywords
genre
frame
feature information
image processing
video
Prior art date
Application number
KR1020140124959A
Other languages
English (en)
Inventor
올하 즈바리에바
앤드리 리우본코
로걸 쿠즈마넨코
테티아나 아그나토바
브로디밀 마닐로
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140124959A priority Critical patent/KR20160035106A/ko
Priority to US14/858,380 priority patent/US20160088355A1/en
Publication of KR20160035106A publication Critical patent/KR20160035106A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4755End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for defining user preferences, e.g. favourite actors or genre
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer Graphics (AREA)
  • Computing Systems (AREA)

Abstract

본 발명은 영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록매체에 관한 것으로서, 본 발명의 실시예에 따른 영상처리장치는, 비디오 컨텐츠를 수신하는 통신 인터페이스부, 및 수신한 비디오 컨텐츠의 임의 프레임에 대한 특징 정보를 추출하고, 프레임이 갱신될 때 상기 추출한 특징 정보를 참조하여 갱신된 프레임에 대한 장르를 인식하는 장르 인식부를 포함할 수 있다.

Description

영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록매체{Apparatus for Processing Image, Method for Processing Image and Computer Readible Recording Medium}
본 발명은 영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록매체에 관한 것으로서, 더 상세하게는 가령 TV, 셋탑박스(STB) 및 휴대폰과 같은 장치에서 실시간으로 비디오 장르를 인식할 수 있는 영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록매체에 관한 것이다.
많은 학술지에는 장르 인식과 관련한 문제들을 보여주고 있다. 이오네스쿠(Ionescu) 등은 데이터 마이닝을 위한 자동 장르 라벨링(labeling) 문제를 해결하기 위해 오디오/비디오 형태(modalities)를 탐구한다. 채택된 특징들은 블록 수준의 오디오 특징들, 비디오의 임시적인 특성들, 그들의 구조적 특성들과 컬러 정보(인간 컬러 인식에 근거한 더 복잡한 특성을 비롯하여 저 수준 컬러 디스크립터들)를 포함한다. 실험들은 K 근접 이웃(K-nearest neighbors), 근사 커넬이 있는 SVM(Support Vector Machine), 그리고 이진 분류를 위한 LDA(Linear Discriminant Analysis) 및 다중 장르 분류를 위한 다분류(multi-class) SVM을 사용해서 한번에 한 장르의 이진 분류 및 다중 분류를 다룬다. 이진 분류를 위해 가장 양호한 동작은 장르에 따라 다르지만, 74 ~ 99% 사이에서 변화되고, SVM을 사용해 개선된다. 실시간 처리의 맥락에서 이러한 접근의 주요한 한계는 전체 비디오 컨텐츠가 동일 장르에 속하는 것을 가정한다. 이것은 학습과 분류 단계 둘 다에서 (다른 부분의 장르를 포함하는) 이종의 컨텐츠의 경우에는 어려움이 있다. 총 91시간의 비디오가 SVM 모델들을 훈련하고 시험하기 위해 사용되었다.
에케넬(Ekenel) 등은 또한 더 복잡한 인지(cognitive) 및 구조 특징들을 추가해서 오디오/비디오 형태들을 사용한다. 오디오-시각적 특징들은 장르 인식의 과업을 위해 특별히 선택되지 않았고, 오히려 고 수준의 특징 검출을 위해 재사용되었으며, 컬러, 텍스처 및 오디오 디스크립터들을 포함했다. 분류는 각 특징 및 각 장르를 위해 특별히 훈련된 SVM 모델들로 수행되었다. 모든 모델들의 출력이 결합되고 마지막 결정은 다수결(majority voting)에 의해 결정되었다. 이러한 전략은 데이터 집합에 따라 92 ~ 99.6 %의 정확도에 이를 수 있었다. 이러한 접근의 이점 중 명백한 한 가지는 다른 과업을 해결하기 위해 추출된 특징들을 활용한다는 것이다. 그래서 분리된 특징 추출의 단계는 생략된다(혹은 추가 인식 및 구조 특징들의 사용으로 인해 감소된다). 고 분류 정확도는 추가된 또 다른 것이다. 여전히, 결과들은 데이터 집합에 확실히 의존적이며, 이것은 (다른 데이터 집합에 의해 달성된 99 ~ 99.6 %와 비교된 92%) 유튜브(Youtube) 데이터와 정확도에서 감소된 것으로 보인다. 이전 것과 유사하게 그 시스템은 비실시간 처리를 지향하고, 그러므로 한번에 전체 비디오로부터의 데이터를 고려하는 특징들을 활용하였다.
글래스버그(Glasberg) 등은 실시간에 가까운 조건에서 다중 장르 분류의 경우에 결정을 얻기 위해 오디오 및 시각적(visual) 특징 및 그들의 결합을 활용하는 이진 집합 분류기들을 제안한다. 특징들의 집합과 이진 분류를 위한 분류는, 비디오 컨텐츠의 각 유형을 위해 가장 적절한 결합을 가정하여, 각 장르를 위해 분리되어 선택된다. 이러한 전략은 계산의 복잡성과 처리 시간을 감소시키지만, 선택된 특징들의 일부 그 자체는 빠르게 계산되지 않는다. 이러한 접근은 (장르에 따라) 평균 92 ~ 98%의 정확도를 확신하지만, 거짓된 부정적인 평가들이 오히려 높고, 회수(recall)를 73 ~ 94%까지 변화하게 한다. 분류기를 훈련하고 시험하기 위해 사용된 비디오의 총 길이는 5시간에 해당되는 양이다.
유안(Yuan) 등은 뉴스, 음악, 스포츠, 광고 및 영화 장르, 그리고 더 나아가 더 좁은 서브 장르로서 세부 분할된 스포츠 및 영화 비디오들을 나타내는 것으로 비디오들을 라벨링해서, 계층적인 비디오 장르 분류의 문제를 역설한다. 다중 장르 분류의 목표를 달성하기 위해, 그들은 이진 트리의 형태로 정렬된 이진 집합 SVM 분류기를 선택했다. 국지적이고 광범위한(global) 최적의 SVM 이진 트리들은 훈련 동안 동적으로 구축하였다. 이 연구에서, 시각적인 특징들만이 10 차원 특징 벡터를 형성하기 위해 비디오 스트림으로부터 추출되었는데, 영화 장르 분류(76%)가 정확도에서 떨어진 것과 스포츠 장르(거의 95%)를 정의함에 있어 더 높은 성능을 보인 것을 합쳐 평균 87%의 정확도를 보였다. 이러한 접근은 실시간 장르 인식에 적용될 수 없는 사용된 특징들의 성질(nature)로 인해 패킷 비디오 처리에 더 초점이 맞춰져 있다.
루비에(Rouvier) 등은 오디오 형태에만 의존해서 실시간 장르 인식의 과업을 해결하려 하고, 그 시스템에 의해 제공된 결과들을 실제 인간 동작에 비교한다. 7가지 장르들 사이의 차이는 장르 의존 가우시안 혼합 모델 - 분류기로서 요인 분석을 갖는 범용 배경 모델- 에 의해 수행된다. 이러한 분류는 3개의 음향 특징들, 즉 PLP(Perceptual Linear Prediction) , 래스타(Rasta)-PLP 및 MFCC를 활용한다. 제안된 시스템은 53%의 가장 좋은 정확도를 가능하게 하는 5초의 비디오를 분류하도록 요청될 때, 인간을 능가하고, 20초에서는 79% 이른다.
그런데, 종래의 이러한 기술들은 실시간 모드로 동작하는 능력(ability), 비압축 비디오를 비롯해 압축 비디오로 동작하는 능력, 오프라인 및 온라인 모드 등의 훈련에 대하여 다른 접근 방법을 사용할 수 있는 능력, 시각적 특징들(오디오 형태는 사용되지 않음)만을 사용하는 것과 컬러, 움직임(motion) 및 에지 등과 같은 다른 그룹의 특징들의 사용과 관련한 많은 부분들을 결여하고 있다.
본 발명의 실시예는 가령 TV, 셋탑박스 및 휴대폰과 같은 장치에서 실시간으로 비디오 장르를 인식할 수 있는 영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록매체를 제공함에 그 목적이 있다.
본 발명의 실시예에 따른 영상처리장치는, 비디오 컨텐츠를 수신하는 통신 인터페이스부, 및 상기 수신한 비디오 컨텐츠의 임의 프레임(frame)에 대한 특징 정보를 추출하고, 상기 추출한 특징 정보를 참조하여 상기 갱신된 프레임에 대한 장르를 인식하는 장르 인식부를 포함한다.
상기 영상처리장치는 상기 인식한 장르에 해당되는 데이터를 검색, 저장, 스킵(skip) 및 시청 제한하기 위한 적어도 하나의 사용자 정보를 설정하는 사용자 인터페이스부를 더 포함하며, 상기 장르 인식부는, 상기 설정한 사용자 정보 및 상기 인식한 장르를 근거로 상기 비디오 컨텐츠를 처리할 수 있다.
상기 장르 인식부는 상기 프레임의 컬러, 텍스처(texture), 움직임 특성, 에지(edge) 특성, 그리고 비디오 프레임에 존재하는 문자(textual) 및 객체 컨텐츠 중 적어도 하나의 특징 정보에 근거하여 상기 장르를 인식할 수 있다.
상기 장르 인식부는 이전 프레임과 현재 프레임 사이에 장면 중단이 있는지 점검하는 장면 검출부를 포함하며, 상기 점검한 결과 장면 중단이 발생하면, 상기 현재 프레임에 대한 특징 정보를 저장할 수 있다.
상기 장르 인식부는 현재 프레임과 이전 프레임 사이에 장면 변화가 없으면 일정 시간 간격을 주기로 상기 현재 프레임에 대한 특징 정보를 저장할 수 있다.
상기 영상처리장치는 저장부를 더 포함하며, 상기 장르 인식부는 상기 갱신된 프레임에 대한 특징 정보를 검출하고, 상기 검출한 특징 정보를 분리해 상기 저장부에 저장할 수 있다.
상기 장르 인식부는 서로 다른 특성을 갖는 복수의 특징 정보를 검출하기 위한 복수의 특징 정보 검출부를 포함하며, 상기 복수의 특징 정보 검출부는, 상기 장르 검출에 부합한 모델을 찾기 위한 훈련 과정에 의해 선정된 모델을 포함할 수 있다.
상기 장르 인식부는 상기 훈련 과정을 위하여 훈련 모드에서 동작하며, 상기 훈련 모드에서 상기 비디오 컨텐츠에 관련된 비디오 데이터 집합의 데이터 인스턴스들을 PCA로 처리하고, 모델 훈련을 위한 대표 인스턴스들을 위해 K-평균(k-means) 기법을 사용해 군집화하여 상기 부합한 모델을 찾을 수 있다.
성기 영상처리장치는 상기 인식한 장르의 비디오를 강화(enhancement)하는 비디오 처리부를 더 포함할 수 있다.
상기 영상처리장치는 상기 인식한 장르의 채널이 검색될 때까지 채널을 자동 스킵하는 튜닝부를 더 포함할 수 있다.
상기 영상처리장치는 상기 인식한 장르의 영상을 녹화 또는 시청 제한하는 제어부를 더 포함할 수 있다.
또한 본 발명의 실시예에 따른 영상처리방법은 비디오 컨텐츠를 수신하는 단계, 상기 수신한 비디오 컨텐츠의 임의 프레임에 대한 특징 정보를 추출하는 단계, 및 프레임이 갱신될 때 상기 추출한 특징 정보를 참조하여 상기 갱신된 프레임에 대한 장르를 인식하는 단계를 포함한다.
상기 영상처리방법은 상기 인식한 장르에 해당되는 데이터를 검색, 저장, 스킵(skip) 및 시청 제한하기 위한 적어도 하나의 사용자 정보를 설정하는 단계, 및 상기 설정한 사용자 정보 및 상기 인식한 장르를 근거로 상기 비디오 컨텐츠를 처리하는 단계를 더 포함할 수 있다.
상기 장르를 인식하는 단계는, 상기 프레임의 컬러, 텍스처, 움직임 특성, 에지 특성, 그리고 비디오 프레임에 존재하는 문자 및 객체 컨텐츠 중 적어도 하나의 특징 정보에 근거하여 상기 장르를 인식할 수 있다.
상기 장르를 인식하는 단계는, 이전 프레임과 현재 프레임 사이에 장면 중단이 있는지 점검하는 단계를 포함하며, 상기 영상처리방법은 상기 점검한 결과 장면 중단이 발생하면, 상기 현재 프레임에 대한 특징 정보를 저장하는 단계를 더 포함할 수 있다.
상기 장르를 인식하는 단계는, 현재 프레임과 이전 프레임 사이에 장면 변화가 없으면 일정 시간 간격을 주기로 상기 현재 프레임에 대한 특징 정보를 저장할 수 있다.
상기 장르를 인식하는 단계는, 상기 갱신된 프레임에 대한 특징 정보를 검출하는 단계, 및 상기 검출한 특징 정보를 분리해 저장부에 저장시키는 단계를 포함할 수 있다.
상기 장르를 인식하는 단계는, 서로 다른 특성을 갖는 복수의 특징 정보를 검출하며, 상기 검출한 복수의 특징 정보는, 상기 장르의 인식에 부합한 모델을 찾기 위한 훈련 과정에 의해 선정된 모델을 구현해서 검출될 수 있다.
상기 장르를 인식하는 단계는, 상기 훈련 과정을 위하여 훈련 모드에서 동작하며, 상기 훈련 모드에서 상기 비디오 컨텐츠에 관련된 비디오 데이터 집합의 데이터 인스턴스들을 PCA로 처리하고, 모델 훈련을 위한 대표 인스턴스들을 위해 K-평균 기법을 사용해 군집화하여 상기 부합한 모델을 찾을 수 있다.
한편, 영상처리방법을 실행하기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록매체에 있어서, 상기 영상처리방법은, 비디오 컨텐츠를 수신하는 단계, 상기 수신한 비디오 컨텐츠의 임의 프레임에 대한 특징 정보를 추출하는 단계, 및 프레임이 갱신될 때 상기 추출한 특징 정보를 참조하여 상기 갱신된 프레임에 대한 장르를 인식하는 단계를 실행한다.
도 1은 본 발명의 실시예에 따른 장르 인식 시스템을 예시하여 나타낸 도면,
도 2는 다양한 장르를 설명하기 위한 도면,
도 3은 도 1의 영상처리장치를 예시하여 나타낸 블록다이어그램,
도 4는 도 1의 영상처리장치의 다른 구조를 예시하여 나타낸 블록다이어그램,
도 5는 본 발명의 실시예에 따른 영상처리방법을 나타내는 흐름도,
도 6은 본 발명의 다른 실시예에 따른 영상처리방법을 나타내는 흐름도,
도 7은 도 6의 특징 추출 과정을 좀더 구체적으로 나타내는 흐름도, 그리고
도 8a 및 도 8b는 도 7에 나타낸 특징 추출 모듈들의 세부 동작을 나타내는 흐름도이다.
이하, 도면을 참조하여 본 발명의 실시예에 대하여 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 장르 인식 시스템을 예시하여 나타낸 도면이고, 도 2는 다양한 장르를 설명하기 위한 도면이다.
도 1에 도시된 바와 같이, 장르 인식 시스템(90)은 영상처리장치(100), 통신망(110) 및 컨텐츠 제공장치(120)의 일부 또는 전부를 포함하며, 영상처리장치(100)에 연동하는 인터페이스 장치를 더 포함할 수 있다.
여기서, 일부 또는 전부를 포함한다는 것은 통신망(110) 및 컨텐츠제공장치(120)와 같은 일부 구성요소가 생략되어 영상처리장치(100)가 단독적으로 장르 인식 동작을 수행하거나, 인터페이스 장치와 연동할 수 있는 것 등을 의미하는 것으로서, 발명의 충분한 이해를 돕기 위하여 전부 포함하는 것으로 설명한다.
본 발명의 실시예에 따른 영상처리장치(100)는 TV, 셋탑박스, 휴대폰, PDA, VCR 및 BD 재생기(Blue-ray Disk Player), 태블릿 PC, MP3 등 다양한 장치를 포함할 수 있으며, 장르 인식이 필요하다면 어떠한 장치이어도 무관하다. 예를 들어, TV나 셋탑 박스의 경우, 온라인상에서 외부에서 입력된 영상 컨텐츠로부터 특정 장르의 프로그램을 판별할 수 있으며, 가령 광고 등을 추가로 판별할 수 있다. 또한 BD 재생기의 경우 오프라인상에서 삽입되는 BD에 저장된 컨텐츠로부터 광고 등을 판별할 수 있다. 예를 들어, 영상처리장치(100)는 도 2에서와 같이 뉴스, 스포츠, 애니메이션, 음악, 드라마 등의 다양한 장르를 구분할 수 있을 것이다.
이런 장르 인식은 영상처리장치(100)에서 다양한 방식으로 활용될 수 있다.
먼저 특정 장르의 비디오를 강화하기 위해 이용될 수 있다. 다시 말해, 영화 장비를 비롯해 TV의 경우에, 적절한 모드를 자동으로 선택할 수 있도록 하기 위해 설치되는 일련의 특정 장르 비디오 강화 모드들, 즉 설정 필터 또는 설정을 위한 복합물들(complexes), 장르 검출 모듈을 구비할 수 있을 것이다.
또한 영상처리장치(100)는 스마트 채널 브라우징 동작을 수행할 수 있다. 사용자는 사전에 또는 검색하기 전에 그들이 선호하는 장르(장르 선호)를 바로 특정할 수 있으며, 채널 검색을 가능하게 한 후, 원하지 않는 장르의 프로그램을 현재 방송하는 채널들에서, 어떤 선호하는 장르의 제1 프로그램이 발견되기 전까지, 자동으로 스킵(skip)되도록 할 수 있다. 이런 경우 선택된 채널을 계속해서 시청하거나 채널 브라우징 모드를 다시 가능하게 하는 기회가 사용자에게 주어지면, 자동 채널 스킵은 멈출 수 있다.
나아가 선택적인 비디오 녹화(record)도 가능할 수 있다. 사용자는 어떤 장르 또는 어떤 종류의 비디오 스트림만을 녹화하길 원할 수 있다. 예를 들어, 축구 게임이 방송되는 동안, 휴식 시간(intermissions), 광고, 인터뷰 등이 없는 실제 게임 컨텐츠만이 녹화되도록 할 수 있을 것이다.
모바일 장치들에서 미디어 컨텐츠의 지능적인 개인화(혹은 맞춤) 분류를 가능하도록 할 수 있다. 사용자는 미디어의 장르를 실시간으로 자동 인식하기 위해 이를 사용하길 원하고, 이에 상응하는 서브 폴더들에 분류된 정보들을 저장할 수 있을 것이다.
미디어 분위기(mood media) 분류가 가능할 수 있다. 이 경우에 사용자는 일부 관심있는 미디어 컨텐츠를 실시간으로 볼 수 있으면, 영상처리장치(100)는 분석 단계 후에 컨텐츠 부분들(혹은 단편들)에 분위기 라벨링을 설정할 수 있을 것이다.
객체 검출도 가능할 수 있다. 본 발명의 실시예에 따른 영상처리장치(100)는 특징 검출 모듈을 통해 다른 애플리케이션들에서 각기(혹은 별도로) 사용될 수 있다. 예를 들어, 사용자의 관심을 위한 더 많은 정보를 제공하기 위해 객체 검색 및 인식에 특징 검출 모듈들 중 하나로서 텍스트/로고 등을 검출할 수 있을 것이다.
광고 부분들의 검출이 가능할 수도 있다. 예를 들어 광고가 시작될 때 채널들을 변경할 수 있다. 또한 광고가 검출될 때 소리를 불능 상태로 할 수 있다. 나아가 광고가 끝날 때 오디오 신호를 설정할 수도 있을 것이다.
부모 제어가 가능할 수 있다. 아이들을 위해 유용하지 않는 컨텐츠 가령 공포나 스릴러 등은 불능 상태로 설정할 수 있다. 예를 들어, 부모가 아이들이 볼 수 있는 컨텐츠를 제한하고자 할 때, 특정 장르의 컨텐츠를 제한하도록 설정하는 경우, 이의 설정이 해제되기 전까지 설정된 장르의 컨텐츠는 수신이 제한될 수 있다.
TV 채널 평가를 위한 익명의 통계 수집이 가능할 수 있다. 가장 인기 있는 장르가 무엇이고, 어떤 시간 동안에 어떠한 장르가 시청되었는지 TV 채널 평가를 위해 익명의 통계를 수집하는 것이 가능할 수 있을 것이다. 다시 말해, 영상처리장치(100)는 장르 검출이 완료되면 또는 검출 중이라 하더라도 채널 평가에 대한 데이터를 영상처리장치(100)의 장치 정보와 함께 서비스 제공업자에게 제공할 수 있을 것이다.
또한 사용자 관심을 위한 통계 수집도 가능할 수 있다. 이전 통계들에 근거해 일부 미디어 컨텐츠 즉 TV 프로그램 등을 제안하거나, 다른 애플리케이션들에 의한 사용을 위해 이를 활용할 수 있다.
나아가, 어떤 장치들을 개인화할 수 있다. 다시 말해, 사용자를 위해 적절하지 않은 비디오/미디어 부분들을 선택하고, 그것에 근거하여 시스템 즉 영상처리장치(100)를 학습하는 능력을 제공할 수 있을 것이다.
이러한 기능의 수행을 위하여 본 발명의 실시예에 따른 영상처리장치(100)는 분류되어야 할 비디오 프로그램의 전체 필름 길이(footage)에 대하여 중대한 지연이나 접속(또는 접근) 없이 비디오 스트림의 장르를 검출한다. 예를 들어, 특징 정보로서 특징 벡터가 존재하는 어느 순간에(혹은 순간부터) 매 프레임이 갱신된 후 이러한 벡터를 참조하여 현재의 적절한 장르 정보를 획득할 수 있다. 이때 비디오의 장르는 컬러, 텍스처(texture), 움직임 특성, 비디오 프레임에 존재하는 문자(textual) 및 객체 컨텐츠를 기술(혹은 서술)하는 비디오 특징들에 근거해 검출된다.
또한 본 발명의 실시예에 따라 상기의 동작들은 비디오 처리부, 튜닝부, 제어부 등 다양한 구성요소들에서 인식한 장르를 이용한 동작을 수행할 수 있을 것이다. 이외에도 정보 수집부나 정보 분석부 등 다양한 구성요소들을 포함할 수 있다.
본 발명의 실시예에 따른 영상처리장치(100)의 성능은 그 상대 혹은 종래와 비교해서 2가지 측면에서 평가될 수 있다. 즉 장르 검출의 속도 및 품질이 이에 해당된다. 비디오 스트림을 구성하는 프레임들의 특징 추출 속도는 비디오 스트림을 분류하기 위해 필요한 시간뿐 아니라 실제 시간을 현저하게 초과하지는 않을 것이다. 이러한 분류 속도는 장르를 검출하기 위해 필요한 초 또는 프레임 수(number)로 측정될 수 있을 것이다.
성능 평가에 관한 한, 모든 시스템 즉 장치를 위한 측정들은 장치 또는 시험되는 데이터 집합에 대한 접근 부족으로 인해 항상 가능하지 않은 동일 데이터 집합에서 시험되어야 하기 때문에 본 발명의 실시예에 따른 영상처리장치(100)를 상대와 비교하는 것이 어렵다. 그러한 가능성이 존재한다면, 성능은 정확도 및 회수(recall) 조건에 의해 평가될 수 있다. 또한 비교 과정에서 고려되어야만 하는 다른 특징들은 장치가 그 장르를 판단하기 위해 전체 비디오를 필요로 하는지, 장르 인식을 확신하기 위해 특징들의 어떠한 형태들/그룹들을 사용하는지, 비디오가 시작되고/장르가 변경된 후 분류 결과를 획득하기 위해 필요한 시간, 인식된 장르의 목록이 변경, 확장 또는 협소하게 축소되는지, 훈련을 위해 필요한 데이터 양 등을 포함할 수 있을 것이다.
본 발명의 실시예에 따른 영상처리장치(100)는 주요한 2가지 단계에서 작동할 수 있다. 가령 훈련(training) 모드와 작동(working) 모드를 포함할 수 있다. 물론 정확한 모델들을 쏟아내기(raining) 위한 중요한 전제조건(pre-requisite)은 영상처리장치(100)가 분류해야 하는 모든 장르의 비디오들을 포함해야 하는 대표 데이터 집합이다. 데이터 집합 설계 및 생성(혹은 창출)의 원리, 원칙은 본 발명의 범위를 벗어나는 것이므로 논외로 하더라도, 결정적인 것은 데이터 집합이 크고 대표적(representative)이어야 한다는 것이다. 본 발명의 실시예에 따라 영상처리장치(100)는 훈련 및 작동 동작 중 적어도 하나의 동작을 수행하는 것이 바람직하다.
본 발명의 실시예에 따른 영상처리장치(100)는 훈련 동안 다음과 같은 동작을 수행할 수 있다. 먼저 비디오 데이터 집합을 처리할 수 있다. 로우 비디오 컨텐츠(혹은 비디오 파일)들의 각 장면을 위한 본 단계에서 특징 벡터들이 저장된다. 가령 캐시(cache)에 저장될 수 있다. 여기서, 캐시는 성능을 향상시키기 위해 사용되는 소형 고속 기억 장치로서, 같은 목적으로 사용되는 주기억 장치의 일부일 수 있다. 특징 벡터는 영상 특징들과 연계된 값들의 번호와 현재 장면(shot)의 장르 라벨로 구성된다. 이러한 값들은 특징 계산 모듈들에 의해 생성될 수 있다. 또한 영상처리장치(100)는 훈련 모드에서 특징 선택 동작을 수행할 수 있다. 다시 말해, 만약 처리 시간을 더 감소시키거나 장르 특정 모듈들을 명령에 따라 변경(custom-tailor)할 필요가 있다면, 특징 선택의 여러 전략 또는 계획들을 사용할 수 있을 것이다. 나아가, 영상처리장치(100)는 특징 가공(engineering) 및 데이터 전처리 동작을 수행할 수 있다. 이를 위해 데이터 인스턴스들은 특징 공간을 새로운 것으로 변환하기 위해 PCA(Principal Component Analysis)로 처리될 수 있고, 모델 훈련을 위한 최상의 대표 인스턴스들을 위해 K-평균(k-means) 기법을 사용해 군집화될 수 있다. 뿐만 아니라, 영상처리장치(100)는 모델 훈련 및 테스트 동작을 수행할 수 있다. 이를 통해 가령 각 장르를 위한 최적의 모델을 선정하는 것이 가능할 수 있을 것이다.
작동(working) 모드에서, 영상처리장치(100)는 다음과 같은 동작을 수행할 수 있다. 먼저 비디오 스트림을 수신한다. 또한 미리 훈련된(pre-trained) 모델을 수신한다. 이러한 모델은 필요시에 온라인을 통해 제공받는 것은 물론, 오프라인상에서 기저장되는 프로그램의 형태로 이루어질 수 있을 것이다. 나아가 각 프레임 당 특징 벡터는 특정 모듈들에 의해 계산된 특징 벡터들로 구성된다. 예를 들어, 2초의 일정 시간마다 특징 벡터가 저장될 수 있을 것이다. 저장된 벡터는 분류기에 의해 분류될 수 있다. 분류 결과는 반환(return)된다. 즉 분류 결과가 반복적으로 저장 및 분류될 수 있을 것이다.
통신망(110)은 유무선 통신망을 모두 포함한다. 여기서 유선망은 케이블망이나 공중 전화망(PSTN)과 같은 인터넷망을 포함하는 것이고, 무선 통신망은 CDMA, WCDMA, GSM, EPC(Evolved Packet Core), LTE(Long Term Evolution), 와이브로 망 등을 포함하는 의미이다. 따라서 통신망(110)이 유선 통신망인 경우 액세스포인트는 전화국의 교환국 등에 접속할 수 있지만, 무선 통신망인 경우에는 통신사에서 운용하는 SGSN 또는 GGSN(Gateway GPRS Support Node)에 접속하여 데이터를 처리하거나, BTS(Base Station Transmission), NodeB, e-NodeB 등의 다양한 중계기에 접속하여 데이터를 처리할 수 있다.
또한 통신망(110)은 건물 내에 많이 설치되는 펨토(femto) 또는 피코(pico) 기지국과 같은 소형 기지국(AP)을 포함한다. 여기서, 펨토 또는 피코 기지국은 소형 기지국의 분류상 영상처리장치(100)를 최대 몇 대까지 접속할 수 있느냐에 따라 구분된다. 물론 AP는 영상처리장치(100)와 지그비 및 와이파이(Wi-Fi) 등의 근거리 통신을 수행하기 위한 근거리 통신 모듈을 포함한다. 본 발명의 실시예에서 근거리 통신은 와이파이 이외에 블루투스, 지그비, 적외선(IrDA), UHF(Ultra High Frequency) 및 VHF(Very High Frequency)와 같은 RF(Radio Frequency) 및 초광대역 통신(UWB) 등의 다양한 규격으로 수행될 수 있다. 이에 따라 AP는 데이터 패킷의 위치를 추출하고, 추출된 위치에 대한 최상의 통신 경로를 지정하며, 지정된 통신 경로를 따라 데이터 패킷을 다음 장치, 예컨대 영상처리장치(100)로 전달한다.
컨텐츠제공장치(120)는 가령 방송국에서 운용하는 방송 서버를 포함할 수 있다. 또는 컨텐츠제공장치(120)는 방송국이 아니라 하더라도, 다양한 컨텐츠들을 제공하는 컨텐츠 영상 제공업체의 서버를 포함할 수 있을 것이다.
인터페이스 장치는 영상처리장치(100)가 TV 등으로 구성될 때, 셋탑박스가 될 수 있다. 또는 영상처리장치(100)가 셋탑박스일 때, VCR 또는 BD 재생기 등이 될 수 있을 것이다. 다시 말해, 인터페이스 장치는 영상처리장치(100)로 오프라인 상의 컨텐츠를 제공할 수 있는 다양한 컨텐츠원이 될 수 있다.
도 3은 도 1의 영상처리장치를 예시하여 나타낸 블록다이어그램이다.
도 3에 도시된 바와 같이, 본 발명의 실시예에 따른 도 1의 영상처리장치(100)는 통신 인터페이스부(300) 및 장르 인식부(310)의 일부 또는 전부를 포함할 수 있다.
여기서, 일부 또는 전부를 포함한다는 것은 통신 인터페이스부(300)가 생략되어 구성되거나, 장르 인식부(310)에 통합되어 구성될 수 있는 것 등을 의미하는 것으로서, 발명의 충분한 이해를 돕기 위하여 전부 포함하는 것으로 설명한다.
통신 인터페이스부(300)는 비디오 컨텐츠를 수신(혹은 로딩)한다. 여기서 비디오 컨텐츠는 다수의 정지 영상을 의미하는 것으로 이해해도 좋다. 물론 통신 인터페이스부(300)는 온/오프라인을 통해 다양한 비디오 컨텐츠를 수신할 수 있으며, 이의 과정에서 메타 데이터를 함께 수신할 수 있다. 이의 경우에는 비디오 컨텐츠와 메타 데이터를 분리하고, 분리한 비디오 컨텐츠를 디코딩하는 등 다양한 동작을 추가로 수행하여 새로운 비디오 스트림을 생성할 수도 있을 것이다. 물론 이러한 디코딩 과정은 비디오 컨텐츠가 압축되어 제공되는 경우를 전제로 한 것이다. 따라서, 비압축된 상태로 비디오 컨텐츠를 수신하는 경우에는 디코딩 과정이 불필요할 수 있다. 통상 온라인의 경우 압축된 상태로 비디오 컨텐츠가 제공된다면 오프라인 상에서는 비압축 상태로 수신되는 것이 바람직하다.
장르 인식부(310)는 수신된 비디오 컨텐츠에 대하여 장르를 인식한다. 이를 위하여, 가령 최초 입력된 단위 프레임에 대하여 특징 정보를 검출하고, 이를 근거로 매 프레임마다 특징 정보를 검출할 수 있다. 예를 들어, 단위 프레임을 통해 앞서 언급한 바 있는 컬러, 움직임 정보 및 에지 정보 등과 같은 다양한 특징 정보를 검출할 수 있다. 장르 인식부(310)는 이러한 특징들을 앞선 프레임의 특징들과 비교하여 장르를 인식할 수 있을 것이다. 예를 들어, 특징 벡터들의 비교를 통해 이전 프레임과 현재 프레임의 특징 벡터들에 대한 급격한 변화가 있으면, 또는 벡터들에 관련된 변수 또는 값들이 기설정된 임계값을 초과하면 장르가 변경된 것으로 인식할 수도 있을 것이다.
이의 과정에서 장르 인식부(310)는 이전 프레임과 현재 프레임 사이에 장면 중단이 있는지 점검하고, 점검 결과 장면 중단이 있으면 필수적으로 특징 벡터들을 가령 캐시 등에 저장할 수 있다. 물론 장면 중단이 없는 경우라 하더라도 일정 시간 간격으로 프레임들에 대한 특징 벡터를 검출하여 저장할 수 있을 것이다. 만약 저장된 벡터들이 훈련 모드에서 사용되는 경우 모든 저장된 벡터들은 분리된 파일에 저장될 수 있고, 이러한 파일들은 나아가 데이터 전처리 및 모델 훈련을 위해 사용될 수 있을 것이다.
한편 장르 인식부(310)는 통계 데이터를 생성하는 것도 가능할 수 있다. 예를 들어, 사용자가 특정 장르를 선호하는지, 또는 스킵하는지 판단하고, 어느 시간 대에 어떠한 장르를 선호하고 스킵하는지 등을 분석하여 분석 데이터를 생성하는 동작을 수행하는 것도 얼마든지 가능할 수 있을 것이다.
도 4는 도 1의 영상처리장치의 다른 구조를 예시하여 나타낸 블록다이어그램이다.
도 4에 도시된 바와 같이, 영상처리장치(100')는 가령 TV나 휴대폰과 같이 영상표시가 가능한 디스플레이부를 갖는 영상표시장치로서, 통신 인터페이스부(400), 사용자 인터페이스부(410), 저장부(420), 제어부(430), 디스플레이부(440), UI 화면 생성부(450) 및 장르 인식부(460)의 일부 또는 전부를 포함할 수 있다.
여기서, 일부 또는 전부를 포함한다는 것은 디스플레이부(440)와 같은 일부 구성요소가 생략되어 구성되거나, 저장부(420) 또는 장르 인식부(460)와 같은 일부 구성요소가 제어부(430)와 같은 구성 요소에 통합 구성될 수 있는 것 등을 의미하는 것으로 발명의 충분한 이해를 돕기 위하여 전부 포함하는 것으로 설명한다.
도 4에 도시된 통신 인터페이스부(400) 및 장르 인식부(460)는 도 3에 도시된 통신 인터페이스부(300) 및 장르 인식부(310)와 크게 다르지 않으므로 그 내용들로 대신하고자 한다. 다만, 도 4의 장르 인식부(460)는 제어부(430)의 제어 하에 동작한다는 점에서 도 3의 장르 인식부(310)와 다를 수 있다.
사용자 인터페이스부(410)는 다양한 사용자 명령을 수신할 수 있다. 예를 들어, 사용자 인터페이스부(410)의 사용자 명령에 따라 제어부(430)는 다양한 정보를 설정하기 위한 UI 화면을 디스플레이부(440)에 표시하도록 할 수 있다. 예를 들어, 사용자 인터페이스부(410)를 통해 앞서 언급한 부모 제어가 필요한 장르를 설정하는 등의 다양한 설정 동작을 위한 사용자 명령이 입력된다. 실질적으로 이러한 UI 화면은 제어부(430)의 제어에 따라 UI 화면 생성부(450)에서 제공될 수 있다.
저장부(420)는 영상처리장치(100)에서 처리되는 다양한 데이터 또는 정보를 저장할 수 있으며, 장르 인식부(460)를 통해 검출된 다양한 특징 정보가 저장되거나 분류되어 저장될 수 있다. 또한 저장부(420)가 캐시인 경우, 제어부(430)의 일부로서 내부에 형성되는 것도 얼마든지 가능할 수 있을 것이다.
제어부(430)는 영상처리장치(100') 내에 구성되는 통신 인터페이스부(400), 사용자 인터페이스부(410), 저장부(420), 디스플레이부(440), UI 화면 생성부(450) 및 장르 인식부(460) 등의 전반적인 동작을 제어한다. 예를 들어, 제어부(430)는 통신 인터페이스부(400)를 통해 비디오 컨텐츠가 수신되는 경우, 장르 인식부(460)로 전달할 수 있다. 이의 과정에서 제어부(430)는 통신 인터페이스부(400)가 부가 정보로서 메타 데이터 등을 분리하고, 디코딩된 파일을 제공하는 경우 이를 전달할 수 있다. 물론 HDMI 방식으로 비디오 컨텐츠가 제공되는 경우에는 압축되지 않은 상태로 전달할 수 있을 것이다. 이외에도 제어부(430)는 장르 인식부(460)를 통해 검출된 특징 정보를 저장부(420)에 저장하고, 사용자의 요청이 있을 때, UI 화면 생성부(450)를 제어하여 UI 화면을 디스플레이부(440)에 표시하도록 제어할 수 있다.
디스플레이부(440)는 사용자의 요청에 따라 UI 화면 생성부(450)에서 제공하는 UI 화면을 표시할 수 있고, 표시된 UI 화면을 통해서는 사용자의 다양한 설정 동작이 이루어질 수 있다. 예를 들어, 사용자가 광고에 대하여 스킵하길 원하였다면, 제어부(430)는 장르 인식부(460)를 통해 인식된 광고에 해당하는 프레임을 버릴 수 있을 것이다. 이외에도 디스플레이부(440)는 사용자가 원하는 다양한 정보를 표시할 수 있을 것이다. 가령, 사용자가 삭제 리스트와 같이 특정 정보를 요청하는 경우 이를 보여주는 것도 얼마든지 가능할 수 있다.
UI 화면 생성부(450)는 UI 화면 제공부라 명명될 수 있으며, 사용자 요청이 있을 때, UI 화면을 생성하여, 또는 생성되어 기저장된 UI 화면을 출력할 수 있을 것이다.
도 5는 본 발명의 실시예에 따른 영상처리방법을 나타내는 흐름도이다.
설명의 편의상 도 5를 도 1과 함께 참조하면, 본 발명의 실시예에 따른 영상처리장치(100)는 온/오프라인을 통해 비디오 컨텐츠를 수신한다(S500). 이때 비디오 컨텐츠는 압축/비압축 방식으로 제공될 수 있고, 부가 정보로서 메타 데이터를 함께 수신할 수 있다. 이의 과정에서, 영상처리장치(100)는 압축된 비디오 컨텐츠에 대하여는 디코딩을 수행하거나, 메타 데이터를 분리하는 동작을 수행할 수 있다.
이어 영상처리장치(100)는 수신한 비디오 컨텐츠의 임의 프레임에 대한 특징 정보를 검출할 수 있다(S510). 정확하게는 비디오 컨텐츠의 최초 프레임에 대한 특징 정보를 검출하는 것이 바람직할 수 있다.
그리고 영상처리장치(100)는 매 프레임이 갱신될 때, 검출한 특징 정보를 참조하여 갱신된 프레임에 대한 장르를 인식한다(S520). 이때 갱신된 프레임은 프레임 수(number)로 결정될 수 있고, 일정 시간 간격으로 결정될 수 있다. 예를 들어, 2초로 설정된 경우, 영상처리장치(100)는 2초마다 장르를 판단하여 장르 변화가 있는지 판단할 수 있을 것이다. 이때 영상처리장치(100)는 2초 간격으로 최초 프레임에 대하여 특징 정보를 검출하여 서로 비교하는 방식으로 장르 변화를 인식할 수 있다. 또는 프레임 수로 장르를 판단하는 경우, 5 프레임 또는 10 프레임마다 장르 변화를 판단할 수 있고, 이의 경우에도 최초 프레임에 대하여 특징 정보, 가령 특징 벡터를 검출하여 비교하는 방식으로 이루어질 수 있을 것이다.
도 6은 본 발명의 다른 실시예에 따른 영상처리방법을 나타내는 흐름도이다.
설명의 편의상 도 6을 도 1과 함께 참조하면, 본 발명의 실시예에 따른 영상처리장치(100)는 훈련 모드 및 작동 모드 중 적어도 하나의 동작을 수행하도록 구성될 수 있다. 다시 말해, 영상처리장치(100)는 훈련 모드만 동작하도록 구성되거나 작동 모드만 동작하도록 구성될 수 있고, 사용자의 모드 설정에 따라 둘 중 하나의 동작만이 이루어지도록 구성될 수 있다. 이러한 점에서, 영상처리장치(100)는 영상 테스트 장치라 명명될 수도 있을 것이다.
여하한, 영상처리장치(100)는 훈련 동작을 수행하기 위하여, 비디오 컨텐츠 및 메타 데이터를 수신할 수 있다(S600).
이어 영상처리장치(100)는 메타 데이터를 비디오 컨텐츠와 분리할 수 있고, 압축이 있는 경우 디코딩하는 등 새로운 비디오 스트림을 생성할 수 있다(S610).
그리고 새로 생성된 스트림에서 프레임 화상 즉 단위 프레임 화상을 얻는다(S620). 이러한 과정은 가령 단위 프레임의 시작과 끝을 알리는 부가 정보를 통해 확인될 수 있을 것이다.
영상처리장치(100)는 얻은 프레임 화상으로부터 특징을 추출한다(S630). 즉 특징 정보를 추출한다.
그리고, 이러한 특징 정보의 추출은 현 장면 내에서 지나간 K초 단위의 비디오에 대하여 이루어진다(S640). K초 단위의 모든 프레임에 대하여 추출이 이루어질 수 있지만, 최초 프레임에 대하여만 이루어질 수 있다.
이후, 현재의 특징 벡터는 저장될 수 있다(S650). 가령 캐시에 저장될 수 있을 것이다.
동작 모드에서, 영상처리장치(100)는 훈련 모드에서와 마찬가지로 비디오 컨텐츠 및 메타 데이터를 수신하고, 수신한 비디오 컨텐츠로부터 새로운 스트림을 생성할 수 있다(S600, S610).
이어 영상처리장치(100)는 훈련 과정을 통해 얻는 최적의 모델을 근거로 이에 대한 가령 프로그램 등을 수신할 수 있다(S670). 이는 물론 온라인상에서 직접 수신하는 것이 가능하지만, 오프라인상에서 기저장하는 것도 가능할 수 있다. 여기서, 모델은 SVM 등의 모델이 될 수 있으며, 프로그램의 형태를 가질 수 있다.
그리고, 영상처리장치(100)는 수신된 모델을 이용하여 계산된, 즉 K초마다 계산된 특징 벡터들을 로드 혹은 저장한다(S680).
그리고 속한 장르의 현 특징 벡터에 근거하여 영상처리장치(100)의 분류기는 예측을 수행할 수 있다(S690).
이후 영상처리장치(100)는 비디오가 존재하는지 추가로 판단하여, 비디오가 존재할 때, K초 단위로 S680 단계 및 S690 단계를 반복하며, 비디오가 없는 경우 종료하게 된다(S700).
도 7은 도 6의 특징 추출 과정을 좀더 구체적으로 나타내는 흐름도이다.
본 발명의 실시예에 따른 영상처리장치(100)의 전반적인 시스템 설계는 특정 장르가 아니라, 훈련 컨텐츠의 이용 가능성에만 의존하는 표적 장르들이다. 훈련 과정은 특징 추출, 특징 가공, 그리고 데이터 전처리 및 모델 훈련 과정들로 구성된다. 이 가운데 특징 추출의 과정은 도 7에 나타내고 있다.
설명의 편의상 도 7을 도 1과 함께 참조하면, 본 발명의 실시예에 따른 영상처리장치(100)는 특징 추출 과정에서, 추출된 특징을 저장하기 위한 캐시, 즉 저장부가 인에블 상태인지 판단할 수 있다(S700).
인에이블 상태이면, XML 마킹을 수신할 수 있다(S710). 가령, 인에이블된 캐시로부터 XML 마킹 또는 마킹 정보를 얻는 것이 가능할 수 있다.
이어 영상처리장치(100)는 비디오를 오픈한다(S720).
그리고 오픈된 비디오에 대하여 프레임 화상을 취득한다(S730). 이와 관련해서는 앞서 충분히 설명하였으므로 더 이상의 설명은 생략한다.
또한 영상처리장치(100)는 복수의 특징 검출 모듈을 이용하여 프레임 화상에 대한 특징을 추출한다(S740).
만약 장면 검출이 제대로 이루어진 경우라면, 추출된 이전의 특징 벡터들은 저장된다(S750, S760).
만약 추출된 특징에 근거하여 장면 검출이 제대로 이루어지지 않았다면, 복수의 특징 검출 모듈을 이용하여 특징 추출 과정을 재수행할 수 있다(S750, S770).
그리고 캐시와 같은 저장부가 인에블되고, 현 장면 내에서 지나간 2초 비디오인 경우, 현 특징 벡터를 캐시에 저장한다(S780, S790).
만약, S780 단계의 조건을 만족하지 못하는 경우, 다시 말해, 2초를 만족하지 못하거나, 2초 비디오에 대하여 저장이 끝난 경우, 새로운 비디오 프레임에 대하여 특징을 검출하여 S730 단계 내지 S770 단계를 반복적으로 수행할 수 있다.
요약해 보면, 미처리된 데이터 집합으로부터의 비디오는 오픈되고, 특징들은 특정된 특징 추출 모듈들에 의해 각 프레임으로부터 추출된다. 특징 추출 모듈들에 의해 획득한 모든 값들은 특징 벡터로 저장된다. 프레임 처리 동안 장면 검출 모듈은 현재 프레임과 이전 프레임 사이에 장면 중단(shot break)이 있는지 점검한다. 장면 중단이 발생할 때마다 현재 특징 벡터는 앞으로의 훈련을 위한 인스턴스로서 캐시 및 저장된다. 만약 등록되는 장면 변화가 없는 경우 지난번 특징 벡터가 캐시된 이후 어떤 시간 양이 지났으면 현 특징 벡터는 또한 캐시된다. 데이터 집합으로부터 전체 비디오 컨텐츠을 처리한 후, 모든 캐시된 벡터들은 분리된 파일에 저장되고 이러한 파일들은 나아가 데이터 전처리 및 모델 훈련을 위해 사용될 수 있다.
도 8a 및 도 8b는 도 7에 나타낸 특징 추출 모듈들의 세부 동작을 나타내는 흐름도이다. 참고로, 도 8a 및 도 8b는 번호 ①, ②, ③이 서로 연결된 하나의 도면에 해당된다. 또한 도 8a 및 도 8b에서, 음영 처리된 특징 추출 모듈들은 장면 처리(shot processing)에 관계되고, 음영 이외의 부분은 프레임 처리에 관계된다.
설명의 편의상 도 8a 및 도 8b를 도 1과 함께 참조하면, 본 발명의 실시예에 따른 영상처리장치(100)는 프레임 픽처를 얻고, 프레임을 카운트할 수 있다(S801, S803). 예를 들어, 프레임 수로 설정된 경우 이와 같은 동작을 수행할 수 있을 것이다.
이어, 카운트가 이루어진 프레임 중에서 최초 프레임 또는 전체 프레임에 대한 특징 검출이 이루어진다(S805 ~ S825). 이와 같은 동작은 다양한 특징을 검출하기 위한 검출 모듈을 통해 동일 프레임에 대하여 이루어질 수 있다.
예를 들어, 특징 검출은 도 8에 상세히 기재되어 있지만, 대표적으로 대조비(contrast), 그레이히스토그램, 모션에너지, 에지히스토그램 및 GLC컨텍스트(GLCContext) 등을 얻기 위한 그레이 변환(GrayConverter)이 이루어질 수 있다. 다시 말해, 단위 프레임의 R, G, B 영상은 0 ~ 255 계조(gray)로 표현될 수 있기 때문에 이에 대한 변환 과정이 필요하다. 이를 통해 S805 단계의 다양한 동작을 수행할 수 있다.
이외에도 장면 주파수, 로고, 컬러 카운트, 색지각(ColorPerception), 모션액티비티, 텍스트 검출, 실루엣(Silhouette) 등의 특징을 얻기 위한 다양한 동작이 이루어질 수 있을 것이다.
그리고, 단위 프레임에 대한 R, G, B의 색좌표를 변환하기 위한 동작이 이루어질 수 있다. 예를 들어, HSL, HSV 및 LUV 변환이 이루어질 수 있다. 이러한 색좌표 변환 과정 이후에 본 발명의 실시예에서 원하는 다양한 특징 정보를 추출하는 것이 가능할 수 있다.
가령, HSL 변환(HSLConverter)을 통해서는 명도(Luminosity) 및 자기상관도(AutoCorrelogram) 등의 특징을 얻을 수 있고, HSV 변환(HSVConverter)을 통해서는 채도(Saturation), 색감(ColorNuance), KPI 컬러모멘트(KPIColorMoments) 및 HSV 히스토그램을, 그리고 LUV 변환(LUVConverter)을 통해서는 휘도(Brighness) 등을 얻을 있을 것이다.
다만, 영상처리장치(100)는 S823 단계에서 얻은 HSV 히스토그램으로부터 데이터를 취득할 수 있다(S827).
그리고 취득한 데이터를 통해 장면 검출 과정을 수행한 후, 장면이 검출된 마지막 프레임을 설정(set) 또는 정하고, 장면을 카운트할 수 있다(S829 ~ S833). 여기서, 장면을 카운트한다는 것은 특정 장면에 대한 프레임 수를 카운트하거나 장면 수를 카운트하는 것으로 이해될 수 있을 것이다.
한편, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 비일시적 저장매체(non-transitory computer readable media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시 예를 구현할 수 있다.
여기서 비일시적 판독 가능 기록매체란, 레지스터, 캐시, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라, 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로, 상술한 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리 카드, ROM 등과 같은 비일시적 판독가능 기록매체에 저장되어 제공될 수 있다.
이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.
100, 100': 영상처리장치 110: 통신망
120: 컨텐츠제공장치 300, 400: 통신 인터페이스부
310, 460: 장르 인식부 410: 사용자 인터페이스부
420: 저장부 430: 제어부
440: 디스플레이부 450: UI 화면 생성부

Claims (20)

  1. 비디오 컨텐츠를 수신하는 통신 인터페이스부; 및
    상기 수신한 비디오 컨텐츠의 임의 프레임(frame)에 대한 특징 정보를 추출하고, 프레임이 갱신될 때 상기 추출한 특징 정보를 참조하여 상기 갱신된 프레임에 대한 장르를 인식하는 장르 인식부;를
    포함하는 영상처리장치.
  2. 제1항에 있어서,
    상기 인식한 장르에 해당되는 데이터를 검색, 저장, 스킵(skip) 및 시청 제한하기 위한 적어도 하나의 사용자 정보를 설정하는 사용자 인터페이스부;를 더 포함하며,
    상기 장르 인식부는,
    상기 설정한 사용자 정보 및 상기 인식한 장르를 근거로 상기 비디오 컨텐츠를 처리하는 것을 특징으로 하는 영상처리장치.
  3. 제1항에 있어서,
    상기 장르 인식부는 상기 프레임의 컬러, 텍스처(texture), 움직임 특성, 에지(edge) 특성, 그리고 비디오 프레임에 존재하는 문자(textual) 및 객체 컨텐츠 중 적어도 하나의 특징 정보에 근거하여 상기 장르를 인식하는 것을 특징으로 하는 영상처리장치.
  4. 제1항에 있어서,
    상기 장르 인식부는 이전 프레임과 현재 프레임 사이에 장면 중단이 있는지 점검하는 장면 검출부를 포함하며,
    상기 점검한 결과 장면 중단이 발생하면, 상기 현재 프레임에 대한 특징 정보를 저장하는 것을 특징으로 하는 영상처리장치.
  5. 제4항에 있어서,
    상기 장르 인식부는 현재 프레임과 이전 프레임 사이에 장면 변화가 없으면 일정 시간 간격을 주기로 상기 현재 프레임에 대한 특징 정보를 저장하는 것을 특징으로 하는 영상처리장치.
  6. 제1항에 있어서,
    저장부;를 더 포함하며,
    상기 장르 인식부는 상기 갱신된 프레임에 대한 특징 정보를 검출하고, 상기 검출한 특징 정보를 분리해 상기 저장부에 저장하는 것을 특징으로 하는 영상처리장치.
  7. 제1항에 있어서,
    상기 장르 인식부는 서로 다른 특성을 갖는 복수의 특징 정보를 검출하기 위한 복수의 특징 정보 검출부를 포함하며,
    상기 복수의 특징 정보 검출부는,
    상기 장르 검출에 부합한 모델을 찾기 위한 훈련 과정에 의해 선정된 모델을 포함하는 것을 특징으로 하는 영상처리장치.
  8. 제7항에 있어서,
    상기 장르 인식부는 상기 훈련 과정을 위하여 훈련 모드에서 동작하며,
    상기 훈련 모드에서 상기 비디오 컨텐츠에 관련된 비디오 데이터 집합의 데이터 인스턴스들을 PCA(Principal Component Analysis)로 처리하고, 모델 훈련을 위한 대표 인스턴스들을 위해 K-평균(k-means) 기법을 사용해 군집화하여 상기 부합한 모델을 찾는 것을 특징으로 하는 영상처리장치.
  9. 제1항에 있어서,
    상기 인식한 장르의 비디오를 강화(enhancement)하는 비디오 처리부;를 더 포함하는 것을 특징으로 하는 영상처리장치.
  10. 제1항에 있어서,
    상기 인식한 장르의 채널이 검색될 때까지 채널을 자동 스킵하는 튜닝부;를 더 포함하는 것을 특징으로 하는 영상처리장치.
  11. 제1항에 있어서,
    상기 인식한 장르의 영상을 녹화 또는 시청 제한하는 제어부;를 더 포함하는 것을 특징으로 하는 영상처리장치.
  12. 비디오 컨텐츠를 수신하는 단계;
    상기 수신한 비디오 컨텐츠의 임의 프레임(frame)에 대한 특징 정보를 추출하는 단계; 및
    프레임이 갱신될 때 상기 추출한 특징 정보를 참조하여 상기 갱신된 프레임에 대한 장르를 인식하는 단계;를
    포함하는 영상처리방법.
  13. 제12항에 있어서,
    상기 인식한 장르에 해당되는 데이터를 검색, 저장, 스킵(skip) 및 시청 제한하기 위한 적어도 하나의 사용자 정보를 설정하는 단계; 및
    상기 설정한 사용자 정보 및 상기 인식한 장르를 근거로 상기 비디오 컨텐츠를 처리하는 단계;를 더 포함하는 것을 특징으로 하는 영상처리방법.
  14. 제12항에 있어서,
    상기 장르를 인식하는 단계는,
    상기 프레임의 컬러, 텍스처(texture), 움직임 특성, 에지(edge) 특성, 그리고 비디오 프레임에 존재하는 문자(textual) 및 객체 컨텐츠 중 적어도 하나의 특징 정보에 근거하여 상기 장르를 인식하는 것을 특징으로 하는 영상처리방법.
  15. 제12항에 있어서,
    상기 장르를 인식하는 단계는, 이전 프레임과 현재 프레임 사이에 장면 중단이 있는지 점검하는 단계를 포함하며,
    상기 점검한 결과 장면 중단이 발생하면, 상기 현재 프레임에 대한 특징 정보를 저장하는 단계;를 더 포함하는 것을 특징으로 하는 영상처리방법.
  16. 제15항에 있어서,
    상기 장르를 인식하는 단계는, 현재 프레임과 이전 프레임 사이에 장면 변화가 없으면 일정 시간 간격을 주기로 상기 현재 프레임에 대한 특징 정보를 저장하는 것을 특징으로 하는 영상처리방법.
  17. 제12항에 있어서,
    상기 장르를 인식하는 단계는,
    상기 갱신된 프레임에 대한 특징 정보를 검출하는 단계; 및
    상기 검출한 특징 정보를 분리해 저장부에 저장시키는 단계;를
    포함하는 것을 특징으로 하는 영상처리방법.
  18. 제12항에 있어서,
    상기 장르를 인식하는 단계는, 서로 다른 특성을 갖는 복수의 특징 정보를 검출하며,
    상기 검출한 복수의 특징 정보는,
    상기 장르의 인식에 부합한 모델을 찾기 위한 훈련 과정에 의해 선정된 모델을 구현해서 검출되는 것을 특징으로 하는 영상처리방법.
  19. 제18항에 있어서,
    상기 장르를 인식하는 단계는, 상기 훈련 과정을 위하여 훈련 모드에서 동작하며,
    상기 훈련 모드에서 상기 비디오 컨텐츠에 관련된 비디오 데이터 집합의 데이터 인스턴스들을 PCA(Principal Component Analysis)로 처리하고, 모델 훈련을 위한 대표 인스턴스들을 위해 K-평균(k-means) 기법을 사용해 군집화하여 상기 부합한 모델을 찾는 것을 특징으로 하는 영상처리방법.
  20. 영상처리방법을 실행하기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록매체에 있어서,
    상기 영상처리방법은,
    비디오 컨텐츠를 수신하는 단계;
    상기 수신한 비디오 컨텐츠의 임의 프레임(frame)에 대한 특징 정보를 추출하는 단계; 및
    프레임이 갱신될 때 상기 추출한 특징 정보를 참조하여 상기 갱신된 프레임에 대한 장르를 인식하는 단계;를
    실행하는 컴퓨터 판독가능 기록매체.
KR1020140124959A 2014-09-19 2014-09-19 영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록매체 KR20160035106A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140124959A KR20160035106A (ko) 2014-09-19 2014-09-19 영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록매체
US14/858,380 US20160088355A1 (en) 2014-09-19 2015-09-18 Apparatus and method for processing image and computer readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140124959A KR20160035106A (ko) 2014-09-19 2014-09-19 영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록매체

Publications (1)

Publication Number Publication Date
KR20160035106A true KR20160035106A (ko) 2016-03-31

Family

ID=55527018

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140124959A KR20160035106A (ko) 2014-09-19 2014-09-19 영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록매체

Country Status (2)

Country Link
US (1) US20160088355A1 (ko)
KR (1) KR20160035106A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018043923A1 (ko) * 2016-09-01 2018-03-08 삼성전자(주) 디스플레이장치 및 그 제어방법
KR20200057474A (ko) * 2018-11-16 2020-05-26 삼성전자주식회사 영상 처리 장치 및 그 동작 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10299013B2 (en) * 2017-08-01 2019-05-21 Disney Enterprises, Inc. Media content annotation
CN109614896A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于递归卷积神经网络的视频内容语义理解的方法
KR102504321B1 (ko) * 2020-08-25 2023-02-28 한국전자통신연구원 온라인 행동 탐지 장치 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
JP4792842B2 (ja) * 2005-07-06 2011-10-12 ソニー株式会社 情報処理装置,情報処理方法,およびコンピュータプログラム
JP2009545921A (ja) * 2006-07-31 2009-12-24 ユナイテッド ビデオ プロパティーズ, インコーポレイテッド メディアガイダンスプランナを提供するためのシステムおよび方法
US9111146B2 (en) * 2008-02-15 2015-08-18 Tivo Inc. Systems and methods for semantically classifying and normalizing shots in video

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018043923A1 (ko) * 2016-09-01 2018-03-08 삼성전자(주) 디스플레이장치 및 그 제어방법
KR20200057474A (ko) * 2018-11-16 2020-05-26 삼성전자주식회사 영상 처리 장치 및 그 동작 방법

Also Published As

Publication number Publication date
US20160088355A1 (en) 2016-03-24

Similar Documents

Publication Publication Date Title
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
US10142679B2 (en) Content processing apparatus, content processing method thereof, server information providing method of server and information providing system
Brezeale et al. Automatic video classification: A survey of the literature
CA2924065C (en) Content based video content segmentation
US7327885B2 (en) Method for detecting short term unusual events in videos
US8316301B2 (en) Apparatus, medium, and method segmenting video sequences based on topic
KR102229156B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
KR20160035106A (ko) 영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록매체
KR20040070269A (ko) 광고방송 및 다른 비디오 콘텐츠의 검출을 위한 패밀리히스토그램 기반으로 한 기술들
US9131207B2 (en) Video recording apparatus, information processing system, information processing method, and recording medium
KR20000054561A (ko) 비디오 인덱싱 방식을 이용한 네트워크 기반의 비디오검색 시스템 및 그 운영방법
JP2007049332A (ja) 記録再生装置および記録再生方法、並びに、記録装置および記録方法
US8406606B2 (en) Playback apparatus and playback method
JP2000312343A (ja) 高速信号探索方法、装置およびその記録媒体
CN111615008B (zh) 基于多设备体验的智能摘要生成和字幕阅读系统
KR100436828B1 (ko) 주문형 동영상 요약 서비스 시스템
KR20230007717A (ko) 지능적 가로-세로 영상 변환을 위한 전자 장치, 시스템 및 방법
Dong et al. Automatic and fast temporal segmentation for personalized news consuming
JP2010015588A (ja) 動画像データの分類装置
Haller et al. Audiovisual anchorperson detection for topic-oriented navigation in broadcast news
JP4979029B2 (ja) 動画像データのシーン分割装置
KR20180068121A (ko) 컨텐트를 인식하는 방법 및 디바이스
KR102160095B1 (ko) 미디어 컨텐츠 구간 분석 방법 및 이를 지원하는 서비스 장치
Kim et al. Real-time highlight detection in baseball video for TVs with time-shift function
US20230319376A1 (en) Display device and operating method thereof

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid