KR20160024767A - 샷 경계 검출 방법, 그리고 이를 구현한 영상 처리 장치 및 방법 - Google Patents

샷 경계 검출 방법, 그리고 이를 구현한 영상 처리 장치 및 방법 Download PDF

Info

Publication number
KR20160024767A
KR20160024767A KR1020150115910A KR20150115910A KR20160024767A KR 20160024767 A KR20160024767 A KR 20160024767A KR 1020150115910 A KR1020150115910 A KR 1020150115910A KR 20150115910 A KR20150115910 A KR 20150115910A KR 20160024767 A KR20160024767 A KR 20160024767A
Authority
KR
South Korea
Prior art keywords
extracting
pixel
histogram
value
binary
Prior art date
Application number
KR1020150115910A
Other languages
English (en)
Other versions
KR101706347B1 (ko
Inventor
안기옥
김민기
이태원
홍석진
채옥삼
Original Assignee
주식회사 이타기술
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이타기술 filed Critical 주식회사 이타기술
Publication of KR20160024767A publication Critical patent/KR20160024767A/ko
Application granted granted Critical
Publication of KR101706347B1 publication Critical patent/KR101706347B1/ko

Links

Images

Classifications

    • G06T7/0079
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

장치가 영상에서 샷 경계를 검출하는 방법으로서, 픽셀별로 형태 정보와 컬러 정보를 포함하는 특징값을 추출하는 단계, 픽셀별 특징값을 이용하여 각 프레임의 히스토그램을 생성하는 단계, 그리고 인접 프레임간 히스토그램 차이를 기초로 프레임들 중에서 샷 경계를 추출하는 단계를 포함한다.

Description

샷 경계 검출 방법, 그리고 이를 구현한 영상 처리 장치 및 방법{METHOD FOR SHOT BOUNDARY DETECTION, AND IMAGE PROCESSING APPARATUS AND METHOD IMPLEMENTING THE SAME METHOD}
본 발명은 영상 처리에 관한 것이다.
오늘날 디지털 비디오는 재생용 서비스 외에도 기록 유산으로서의 아카이브, 지능형 서비스의 재료 등으로 널리 이용되고 있다. 그러나 사용자가 방대한 데이터량의 비디오를 순차적으로 재생하면서 분석 및 가공해야 하므로 비디오 분석 및 가공이 쉽지 않다. 이러한 문제를 해결하기 위해 장면 및 샷 경계 검출 방법이 연구되고 있다.
비디오에서 샷 경계를 검출하는 방법은 연속 프레임간 차이를 계산하고, 차이가 충분히 크면 샷 경계라고 간주한다. 프레임간 차이는 픽셀 기반 방법, 블록 기반 방법, 히스토그램 기반 방법, 에지 기반 방법, 모션벡터 기반 방법 등으로 계산될 수 있다. 픽셀 기반 방법은 인접 프레임에서 대응하는 픽셀 값들의 차이를 이용하여 샷 경계를 검출하는 방법으로서, 잡음과 객체의 움직임에 매우 민감한 단점이 있다. 히스토그램 기반 방법은 인접 프레임에서 컬러 정보를 이용하여 히스토그램을 각각 구한 뒤 히스토그램 간 차이를 계산하는 방법으로서, 픽셀 기반 방법에 비해 잡음과 객체의 움직임에 강인한 반면, 동일 샷에서 프레임의 컬러 분포가 급격하게 변할 경우 새로운 샷 경계로 오검출하는 단점이 있다. 따라서, 히스토그램 기반 방법에서 객체의 상태 변화에 민감하게 반응하는 문제를 보완하는 방법이 필요하다.
본 발명이 해결하고자 하는 과제는 샷 경계 검출 방법, 그리고 이를 구현한 영상 처리 장치 및 방법을 제공하는 것이다.
본 발명의 한 실시예 따른 장치가 영상에서 샷 경계를 검출하는 방법으로서, 픽셀별로 형태 정보와 컬러 정보를 포함하는 특징값을 추출하는 단계, 픽셀별 특징값을 이용하여 각 프레임의 히스토그램을 생성하는 단계, 그리고 인접 프레임간 히스토그램 차이를 기초로 프레임들 중에서 샷 경계를 추출하는 단계를 포함한다.
상기 특징값을 추출하는 단계는 픽셀의 형태 정보를 표현하는 제1 이진값을 추출하는 단계, 상기 픽셀의 컬러 정보를 표현하는 제2 이진값을 추출하는 단계, 그리고 상기 제1 이진값과 상기 제2 이진값을 결합하여 상기 픽셀의 특징값을 생성하는 단계를 포함할 수 있다.
상기 제1 이진값을 추출하는 단계는 지역 이진 패턴(Local binary patterns)을 이용하여 상기 제1 이진값을 추출할 수 있다.
상기 제1 이진값을 추출하는 단계는 상기 지역 이진 패턴으로 생성된 이진 코드를 비트 단위로 이동하여 최소가 되는 회전 무관(Rotation Invariant) 코드를 생성하고, 상기 회전 무관 코드를 상기 제1 이진값으로 추출할 수 있다.
상기 제2 이진값을 추출하는 단계는 상기 픽셀에서 추출된 레드(Red), 그린(Green), 블루(Blue)를 각각 표현하는 컬러 채널들에서 일부 비트를 추출하고, 추출한 일부 비트를 결합하여 상기 제2 이진값을 생성할 수 있다.
상기 일부 비트는 각 컬러 채널의 상위 2비트이고, 상기 제2 이진값은 6비트일 수 있다.
상기 샷 경계를 추출하는 단계는 기준 프레임 전후 프레임들의 평균 히스토그램 차이를 임계값으로 계산하고, 상기 기준 프레임과 상기 기준 프레임의 이전 프레임의 히스토그램 차이가 상기 임계값보다 큰 경우, 상기 기준 프레임을 샷 경계로 추출할 수 있다.
본 발명의 다른 실시예에 따른 장치가 영상을 처리하는 방법으로서, 인접 프레임간 히스토그램 차이를 기초로 상기 영상을 유사 프레임들의 집합인 샷 또는 장면으로 구분하는 단계, 그리고 각 샷 또는 각 장면의 대표 프레임에서 객체를 인식하는 단계를 포함하고, 상기 히스토그램 차이는 형태 정보를 포함하는 픽셀의 특징값을 기초로 계산될 수 있다.
상기 방법은 픽셀별로 형태 정보와 컬러 정보를 포함하는 특징값을 추출하는 단계, 픽셀별 특징값을 이용하여 각 프레임의 히스토그램을 생성하는 단계, 그리고 인접 프레임간 히스토그램 차이를 계산하는 단계를 더 포함할 수 있다.
상기 형태 정보는 지역 이진 패턴(Local binary patterns)으로 추출될 수 있다.
상기 특징값을 추출하는 단계는 상기 지역 이진 패턴으로 추출된 이진 코드를 비트 단위로 이동하여 회전 무관(Rotation Invariant) 코드를 획득하고, 상기 회전 무관 코드를 상기 특징값에 포함시킬 수 있다.
상기 샷 또는 장면으로 구분하는 단계는 기준 프레임 전후 프레임들의 평균 히스토그램 차이를 임계값으로 계산하고, 상기 기준 프레임과 상기 기준 프레임의 이전 프레임의 히스토그램 차이가 상기 임계값보다 큰 경우, 상기 기준 프레임을 샷 또는 장면의 경계로 추출할 수 있다.
상기 영상은 테이블 위를 촬영한 영상이고, 상기 객체는 상기 테이블 위에 놓인 물리 객체일 수 있다.
본 발명의 또 다른 실시예에 따른 영상 처리 장치로서, 프로그램을 저장하는 메모리, 그리고 상기 메모리와 연동하여 상기 프로그램을 실행하는 프로세서를 포함하고, 상기 프로그램은 입력 영상에서 픽셀별로 형태 정보와 컬러 정보를 포함하는 특징값을 추출하고, 픽셀별 특징값을 이용하여 각 프레임의 히스토그램을 생성하며, 인접 프레임간 히스토그램 차이를 기초로 프레임들 중에서 샷 경계를 추출하는 동작을 수행하는 명령어들(instructions)을 포함한다.
상기 프로그램은 추출한 샷 경계를 기초로 구분되는 유사 프레임들의 집합에서 대표 프레임을 추출하고, 상기 대표 프레임에서 객체를 인식하는 동작을 수행하는 명령어들을 포함할 수 있다.
본 발명의 실시예에 따르면 컬러 정보만 이용했을 때보다 잡음, 조명 변화, 객체의 상태 변화 등에 환경 변화에 강인한 방법으로 샷 경계를 검출할 수 있다. 본 발명의 실시예에 따르면 테이블 위에서의 물리 객체의 등장, 이동, 사라짐과 같은 상태 변화가 발생하더라도 유사 프레임으로 인식할 수 있다. 따라서, 본 발명의 실시예에 따르면 원격 협업 시스템 성능을 향상시킬 수 있고, 원격지 사이의 테이블 공유를 통해 만족도 높은 원격 협업 서비스를 제공할 수 있다.
도 1은 비디오의 계층적 구조를 설명하는 도면이다.
도 2는 본 발명의 한 실시예에 따른 샷 경계 검출 방법의 흐름도이다.
도 3은 본 발명의 한 실시예에 따른 픽셀의 특징값 생성 방법의 흐름도이다.
도 4는 본 발명의 한 실시예에 따른 특징값을 위한 형태 정보를 추출 방법을 설명하는 도면이다.
도 5는 본 발명의 한 실시예에 따른 특징값을 위한 컬러 정보 추출 방법을 설명하는 도면이다.
도 6은 본 발명의 한 실시예에 따른 특징값의 구조를 나타내는 도면이다.
도 7은 본 발명의 한 실시예에 따른 원격 협업 시스템의 구성도이다.
도 8은 본 발명의 한 실시예에 따른 영상 처리 방법의 흐름도이다.
도 9는 본 발명의 한 실시예에 따른 영상 처리 장치의 성능을 평가하기 위한 영상의 예시이다.
도 10은 본 발명의 한 실시예에 따른 실험 결과를 나타내는 그래프이다.
도 11은 본 발명의 한 실시예에 따른 영상 처리 장치의 하드웨어 구조를 개략적으로 나타내는 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 비디오의 계층적 구조를 설명하는 도면이다.
도 1을 참고하면, 비디오는 유사 프레임이 모여 샷(shot)을 이루고, 유사 의미 집단의 샷들이 모여 장면을 구성하며, 장면들의 집합이 하나의 클러스터를 형성하는 계층적 구조를 가진다.
샷/장면 경계 검출 방법은 비디오의 계층적 구조를 해석하여 비디오 요약 및 탐색용 색인(indexing), 샷 전환 기반(shot-based)/장면 전환 기반(scene-based) 편집, 프로세싱 절약 등의 용도로 다양하게 이용된다.
비디오의 샷/장면 경계를 검출하는 방법들 중에서 히스토그램 기반 검출 방법이 있다. 인접 프레임에서 컬러 정보를 이용하여 히스토그램을 각각 구한 뒤 히스토그램 간 차이를 계산하는 방법은 동일 샷/장면에서 프레임의 컬러 분포가 급격하게 변할 경우 새로운 샷/장면으로 오검출하는 단점이 있다.
다음에서 객체의 상태 변화에 강인한 샷/장면 경계 검출 방법에 대해 설명한다. 다음에서 장면의 하위 개념인 "샷" 경계 검출로 설명하나, 장면 경계 검출에 사용될 수 있다.
도 2는 본 발명의 한 실시예에 따른 샷 경계 검출 방법의 흐름도이다.
도 2를 참고하면, 영상 처리 장치(100)는 픽셀별 특징값을 이용하여 프레임의 히스토그램을 생성한다(S110). 특징값은 컬러 정보와 형태 정보가 결합된 코드이고, 특징값 생성 방법은 도 3을 참고로 자세히 설명한다. 픽셀의 특징값이 12비트(bits)로 표현된다면, 히스토그램은 4,096개(212)의 빈(bin)을 가진다.
영상 처리 장치(100)는 인접 프레임간 히스토그램 차이(거리)를 계산한다(S120). 히스토그램 차이는 히스토그램의 거리(distance, D)일 수 있고, 수학식 1과 같이 계산될 수 있다. 수학식 1에서 D(i)는 i번째 프레임(i)과 이전 프레임(i-1)의 거리이다.
Figure pat00001
는 히스토그램이고, m은 히스토그램 빈이며, M은 히스토그램 빈의 총 개수이다.
Figure pat00002
영상 처리 장치(100)는 히스토그램 차이값(거리값)과 임계값을 비교하여 프레임들 중에서 샷 경계를 추출한다(S130). 히스토그램 차이값은 동일한 샷 내에서는 큰 차이를 보이지 않지만, 샷이 전환되는 프레임(샷 경계)에서는 차이가 크다. 영상 처리 장치(100)는 히스토그램 차이값이 임계값보다 큰 프레임이 발견되면, 이 프레임을 샷 경계로 판단한다. i번째 프레임(i)에 사용되는 임계값[T(i)]은 수학식 2와 같다. 수학식 2에서
Figure pat00003
는 히스토그램 차이값의 평균이고,
Figure pat00004
는 표준편차이며,
Figure pat00005
는 가중치이다. 영상 처리 장치(100)는 기준 프레임 전후의 일정 개수의 프레임들(예를 들면, 3개의 프레임)을 포함하도록 윈도우 영역을 설정하고, 기준 프레임 전후의 일정 개수의 프레임들의 히스토그램 차이값의 평균[
Figure pat00006
]을 계산할 수 있다.
Figure pat00007
도 3은 본 발명의 한 실시예에 따른 픽셀의 특징값 생성 방법의 흐름도이고, 도 4는 본 발명의 한 실시예에 따른 특징값을 위한 형태 정보를 추출 방법을 설명하는 도면이고, 도 5는 본 발명의 한 실시예에 따른 특징값을 위한 컬러 정보 추출 방법을 설명하는 도면이며, 도 6은 본 발명의 한 실시예에 따른 특징값의 구조를 나타내는 도면이다.
컬러 히스토그램 기반 샷 경계 검출 방법은 영상에 포함된 물리 객체의 상태 변화(움직임)에 민감하게 반응한다. 본 발명은 이러한 문제를 해결하기 위해 컬러 정보와 형태 정보를 결합한 특징값을 기초로 프레임의 히스토그램을 구한다. 영상 처리 장치(100)는 특징값을 이용하여 프레임의 히스토그램을 생성하고, 프레임 간 히스토그램 차이를 기초로 샷 경계를 검출한다.
도 3을 참고하면, 영상 처리 장치(100)는 픽셀의 형태 정보를 표현하는 이진값을 추출한다(S210). 형태 정보를 표현하는 이진값은 픽셀 특징값의 일부 코드에 해당한다. 형태 정보를 표현하는 이진값은 다양한 방법으로 추출될 수 있고, 예를 들면, 영상의 형태 정보를 표현하는 지역 이진 패턴(Local binary patterns, LBP)일 수 있다.
도 4를 참고하면, 3x3 블록의 경우, 중심 픽셀과 이웃 픽셀들의 값을 비교하여 이웃 픽셀에 0 또는 1의 값을 부여하여 이진 코드(예를 들면, 11101010)를 생성한다. 이진 코드는 히스토그램 생성을 위해 십진수(234)로 변환될 수 있다.
LBP 코드는 수학식 3과 같이 생성된다. 수학식 3에서, ic는 중심 픽셀(xc, yc)의 픽셀값이고, ip는 중심 픽셀 주위의 8개의 이웃 픽셀값이다. T는 임계값이고,
Figure pat00008
는 잡음에 강인한 LBP 코드를 생성하기 위해 사용되는 값이다.
Figure pat00009
는 실험을 통해 최적의 값이 선택될 수 있고, 예를 들면 2로 선택될 수 있다.
Figure pat00010
영상 처리 장치(100)는 회전 변화에 강인한 코드 생성을 위해, 회전 무관(Rotation Invariant) LBP(RILBP) 코드를 생성할 수 있다. 회전 무관 LBP 코드는 수학식 4와 같이 생성될 수 있다.
영상 처리 장치(100)는 수학식 3에서 얻어진 LBP 코드의 이진값이 최소가 될 때까지 비트 단위로 코드를 이동시킨다. 예를 들어, 1001000(2)을 비트 단위로 값을 이동시켜 얻을 수 있는 최소값은 0001001(2)이다. 이때, 8비트의 LBP 코드를 shift 연산하여 58개의 코드가 획득되고, 58개의 코드에서 중복을 제거하면 35개의 코드가 남는다. 따라서, 8비트의 LBP 코드는 테이블 연산을 통해 6비트의 RILBP로 표현될 수 있다.
영상 처리 장치(100)는 픽셀의 컬러 정보를 표현하는 이진값을 추출한다(S220). 컬러 정보를 표현하는 이진값은 픽셀 특징값의 일부 코드에 해당한다.
도 5를 참고하면, 영상 처리 장치(100)는 컬러 영상으로부터 픽셀의 컬러 정보를 추출하는데, 3개의 컬러(R, G, B) 각각을 표현하는 컬러 정보를 추출할 수 있다. 각 컬러 채널은 8비트의 이진값으로 표현될 수 있다.
영상 처리 장치(100)는 각 컬러 채널의 일부 비트(예를 들면, 상위 2비트)를 추출하고, 이들을 결합하여 컬러 정보를 표현하는 이진값으로 생성할 수 있다. 예를 들면, 영상 처리 장치(100)는 픽셀의 레드 컬러를 나타내는 상위 2비트(R7, R6), 픽셀의 그린 컬러를 나타내는 상위 2비트(G7, G6), 픽셀의 블루 컬러를 나타내는 상위 2비트(B7, B6)를 추출할 수 있다.
영상 처리 장치(100)는 픽셀의 형태 정보를 표현하는 이진값과 컬러 정보를 표현하는 이진값을 결합하여 픽셀의 특징값을 생성한다(S230).
도 6을 참고하면, 특징값이 12비트로 표현되는 되는 경우, 12비트 중 일부 비트(예를 들면, 6비트)는 LBP 코드이고, 나머지 비트(예를 들면, 6비트)는 컬러 비트(R7, R6, G7, G6, B7, B6)일 수 있다. LBP 코드는 RILBP 코드일 수 있다.
영상 처리 장치(100)는 컬러 정보와 형태 정보가 결합된 특징값을 기초로 프레임의 히스토그램을 생성한다. 그리고 영상 처리 장치(100)는 도 2를 참고로 설명한 방법에 따라 샷 경계를 검출한다.
도 7은 본 발명의 한 실시예에 따른 원격 협업 시스템의 구성도이고, 도 8은 본 발명의 한 실시예에 따른 영상 처리 방법의 흐름도이다.
도 7을 참고하면, 원격 협업 시스템(10)은 테이블 위에 놓인 물리 객체(예를 들면, 인쇄물, 노트, 물건 등)를 인식하고, 인식한 객체 정보를 상대방에게 전송하는 테이블 정보 공유를 지원한다. 따라서, 원격 협업 시스템(10)은 영상/문서의 단순 공유를 넘어 테이블 정보를 공유함으로써 마치 원격의 상대방이 바로 맞은 편에 앉아서 회의를 하는 것 같은 실감 대화형 서비스를 제공할 수 있다.
원격 협업 시스템(10)은 복수의 사용자 시스템(로컬 시스템)과 협업 관리 서버(센터 시스템)를 포함한다. 사용자 시스템은 적어도 하나의 디스플레이 장치, 적어도 하나의 카메라, 영상출력 장치(프로젝터), 테이블, 각종 입출력 장치(예를 들면, 마이크, 스피커, 키보드 등), 그리고 컴퓨팅 장치를 포함한다. 컴퓨팅 장치는 디스플레이 장치, 카메라들, 각종 입출력 장치와 연결되고, 또한 협업 관리 서버와 연결되어 상대방과의 실시간 원격 협업을 위한 데이터 송수신 및 제어를 한다.
영상 처리 장치(100)는 컴퓨팅 장치에 포함되거나 별도로 구현될 수 있다. 영상 처리 장치(100)를 포함하는 컴퓨팅 장치는 객체 인식 및 제스처 인식 기술을 이용하여 테이블 위의 상황을 인지하고, 원격지 각각의 테이블 위의 상태 변화를 공유하는 협업 환경을 생성한다.
테이블 표면은 카메라에 의해 촬영되고, 촬영된 테이블 영상은 영상 처리 장치(100)로 전송한다. 영상 처리 장치(100)는 영상 분석을 통해 테이블 위에 놓인 물리 객체(예를 들면, 노트 등), 테이블 위에서 이동되는 물리 객체, 또는 테이블 위에서 사라지는 물리 객체를 인식한다.
사용자의 행동에 따라 동일한 물리 객체가 한정된 범위(테이블 영역) 안에서 움직일 수 있다. 만약, 컬러 정보를 기초로 히스토그램 차이를 계산하는 경우, 물리 객체가 움직이면 동일한 물리 객체를 포함하는 프레임에도 불구하고 히스토그램 차이가 클 수 있다. 하지만 영상 처리 장치(100)는 형태 정보를 포함한 특징값을 기초로 히스토그램을 생성하므로, 동일한 물리 객체를 포함하는 프레임 간의 히스토그램 차이가 크지 않다. 따라서, 영상 처리 장치(100)는 샷/장면 경계 검출 시 카메라 이동, 객체의 움직임, 조명 변화, 잡음 등에 강인할 수 있다.
특히 원격 협업 시스템은 다양한 기술이 적용되므로, 컴퓨팅 장치의 프로세서를 효율적으로 운용해야 한다. 객체 인식을 하는 프레임 수가 늘어날수록 더 많은 프로세서 자원을 요구하게 되므로 효율적 운용이 불가능해 진다. 따라서, 영상 처리 장치(100)는 변화가 거의 없는 테이블 표면의 배경에서 물리 객체의 등장과 사라짐에 따라 효율적으로 샷/장면 경계를 검출해야 한다.
도 8을 참고하면, 영상 처리 장치(100)는 인접 프레임간 히스토그램 차이를 기초로 영상(예를 들면, 테이블 영상)을 유사 프레임들의 집합인 샷 또는 장면으로 구분한다(S310). 영상 처리 장치(100)는 형태 정보가 포함된 특징값을 기초로 히스토그램 차이를 계산하므로, 영상 안에서 물리 객체의 위치가 변하더라도 형태가 유사하게 유지되는 프레임들을 동일한 샷(유사 프레임의 집합)으로 판단할 수 있다.
영상 처리 장치(100)는 각 샷 또는 각 장면의 대표 프레임을 추출한다(S320).
영상 처리 장치(100)는 대표 프레임에서 객체를 인식한다(S330).
이와 같이 영상 처리 장치(100)는 물리 객체가 회전하거나 위치가 바뀌더라도 샷 경계로 검출하지 않을 수 있으므로, 추출되는 대표 프레임 수가 적다. 따라서, 영상 처리 장치(100)는 물리 객체를 분석하고 인식하는데 소요되는 시간 및 자원을 절약할 수 있다.
도 9는 본 발명의 한 실시예에 따른 영상 처리 장치의 성능을 평가하기 위한 영상의 예시이고, 도 10은 본 발명의 한 실시예에 따른 실험 결과를 나타내는 그래프이다.
도 9를 참고하면, 테이블 위를 촬영한 영상들의 예시로서, 원격 협업 환경에서 나타날 수 있는 예상 상황이다. 도 9의 (a)는 기준 영상이고, (b)는 기준 영상에서 조명이 변한 상태에서 촬영한 영상이고, (c)는 새로운 물리 객체가 등장한 영상이며, (d)는 물리 객체가 회전한 영상이다.
도 10을 참고하면, 도 9의 (a)와 도 9의 (b), (c), (d) 각각의 히스토그램 차이를 계산하고, 이를 기초로 샷/장면 경계 검출 성능을 확인할 수 있다. 컬러 히스토그램 기반 방법(color), 컬러 정보와 LBP 코드를 결합한 특징값 기반 방법(color+LBP), 컬러 정보와 RILBP 코드를 결합한 특징값 기반 방법(color+RILBP)을 이용하여 조명 변화, 회전, 객체 등장 영상에 대한 히스토그램 차이를 계산한다.
컬러 히스토그램 기반 방법(color)은 조명 변화와 회전 변화에서 다른 방법에 비해 상대적으로 민감하며 객체 등장 시 히스토그램 차이가 굉장히 크다. 또한 컬러 히스토그램 기반 방법은 이미 존재하는 물리 객체가 순간적으로 변하는 상황에서도 민감하게 반응한다.
컬러 정보와 LBP 코드를 결합한 특징값 기반 방법(color+LBP)은 컬러 히스토그램 기반 방법에 비해 조명 변화, 회전 변화, 객체 등장에서 모두 좋은 결과를 나타낸다.
컬러 정보와 RILBP 코드를 결합한 특징값 기반 방법(color+RILBP)은 color+LBP보다 회전 변화에 강인한 결과를 나타낸다. RILBP가 8비트를 이용하는 LBP에 비해 2비트를 적게 사용하기 때문이다.
표 1은 실험 비디오를 이용하여 각각의 방법에 대한 결과를 Precision(=검출된 실제 샷/검출된 샷)과 Recall(=검출된 실제 샷/실제 샷)로 나타낸 것이다. 실험 비디오는 3개의 물리 객체의 나타남과 사라짐이 한 번씩 발생하는 상황들로 구성된 영상이다.
방법 Precision(%) Recall(%)
Color 25.00 50.00
Color+LBP 29.41 83.33
Color+RILBP 42.85 100.00
이와 같이, 컬러 정보와 형태 정보를 결합한 특징값을 이용한 히스토그램 거리 계산 방법, 그리고 이를 이용한 샷/장면 검출 방법은 컬러 정보만 이용했을 때보다 잡음, 조명 변화, 객체의 상태 변화에 강인하다.
도 11은 본 발명의 한 실시예에 따른 영상 처리 장치의 하드웨어 구조를 개략적으로 나타내는 도면이다.
도 11을 참고하면, 영상 처리 장치(100)는 적어도 하나의 프로세서, 적어도 하나의 메모리, 통신모듈을 포함하는 하드웨어로 구성될 수 있다. 영상 처리 장치(100)는 저장 장치를 더 포함할 수 있다. 또는 영상 처리 장치(100)는 컴퓨팅 장치에 포함될 수 있고, 컴퓨팅 장치는 적어도 하나의 프로세서, 적어도 하나의 메모리, 통신모듈을 포함하는 하드웨어로 구성되어 본 발명을 구현할 수 있다.
메모리는 본 발명을 수행하기 위한 명령어(instructions)를 저장하고 있거나, 저장 장치로부터 명령어를 로드하여 일시 저장한다. 프로세서는 메모리에 저장되어 있거나 로드된 명령어를 실행하여 본 발명의 동작을 수행한다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (15)

  1. 장치가 영상에서 샷 경계를 검출하는 방법으로서,
    픽셀별로 형태 정보와 컬러 정보를 포함하는 특징값을 추출하는 단계,
    픽셀별 특징값을 이용하여 각 프레임의 히스토그램을 생성하는 단계, 그리고
    인접 프레임간 히스토그램 차이를 기초로 프레임들 중에서 샷 경계를 추출하는 단계
    를 포함하는 샷 경계 검출 방법.
  2. 제1항에서,
    상기 특징값을 추출하는 단계는
    픽셀의 형태 정보를 표현하는 제1 이진값을 추출하는 단계,
    상기 픽셀의 컬러 정보를 표현하는 제2 이진값을 추출하는 단계, 그리고
    상기 제1 이진값과 상기 제2 이진값을 결합하여 상기 픽셀의 특징값을 생성하는 단계
    를 포함하는 샷 경계 검출 방법.
  3. 제2항에서,
    상기 제1 이진값을 추출하는 단계는
    지역 이진 패턴(Local binary patterns)을 이용하여 상기 제1 이진값을 추출하는 샷 경계 검출 방법.
  4. 제3항에서,
    상기 제1 이진값을 추출하는 단계는
    상기 지역 이진 패턴으로 생성된 이진 코드를 비트 단위로 이동하여 최소가 되는 회전 무관(Rotation Invariant) 코드를 생성하고, 상기 회전 무관 코드를 상기 제1 이진값으로 추출하는 샷 경계 검출 방법.
  5. 제2항에서,
    상기 제2 이진값을 추출하는 단계는
    상기 픽셀에서 추출된 레드(Red), 그린(Green), 블루(Blue)를 각각 표현하는 컬러 채널들에서 일부 비트를 추출하고, 추출한 일부 비트를 결합하여 상기 제2 이진값을 생성하는 샷 경계 검출 방법.
  6. 제5항에서,
    상기 일부 비트는 각 컬러 채널의 상위 2비트이고, 상기 제2 이진값은 6비트인 샷 경계 검출 방법.
  7. 제1항에서,
    상기 샷 경계를 추출하는 단계는
    기준 프레임 전후 프레임들의 평균 히스토그램 차이를 임계값으로 계산하고, 상기 기준 프레임과 상기 기준 프레임의 이전 프레임의 히스토그램 차이가 상기 임계값보다 큰 경우, 상기 기준 프레임을 샷 경계로 추출하는 샷 경계 검출 방법.
  8. 장치가 영상을 처리하는 방법으로서,
    인접 프레임간 히스토그램 차이를 기초로 상기 영상을 유사 프레임들의 집합인 샷 또는 장면으로 구분하는 단계, 그리고
    각 샷 또는 각 장면의 대표 프레임에서 객체를 인식하는 단계
    를 포함하고,
    상기 히스토그램 차이는 형태 정보를 포함하는 픽셀의 특징값을 기초로 계산되는 영상 처리 방법.
  9. 제8항에서,
    픽셀별로 형태 정보와 컬러 정보를 포함하는 특징값을 추출하는 단계,
    픽셀별 특징값을 이용하여 각 프레임의 히스토그램을 생성하는 단계, 그리고
    인접 프레임간 히스토그램 차이를 계산하는 단계
    를 더 포함하는 영상 처리 방법.
  10. 제9항에서,
    상기 형태 정보는 지역 이진 패턴(Local binary patterns)으로 추출되는 영상 처리 방법.
  11. 제10항에서,
    상기 특징값을 추출하는 단계는
    상기 지역 이진 패턴으로 추출된 이진 코드를 비트 단위로 이동하여 회전 무관(Rotation Invariant) 코드를 획득하고, 상기 회전 무관 코드를 상기 특징값에 포함시키는 영상 처리 방법.
  12. 제8항에서,
    상기 샷 또는 장면으로 구분하는 단계는
    기준 프레임 전후 프레임들의 평균 히스토그램 차이를 임계값으로 계산하고, 상기 기준 프레임과 상기 기준 프레임의 이전 프레임의 히스토그램 차이가 상기 임계값보다 큰 경우, 상기 기준 프레임을 샷 또는 장면의 경계로 추출하는 영상 처리 방법.
  13. 제8항에서,
    상기 영상은 테이블 위를 촬영한 영상이고,
    상기 객체는 상기 테이블 위에 놓인 물리 객체인 영상 처리 방법.
  14. 프로그램을 저장하는 메모리, 그리고
    상기 메모리와 연동하여 상기 프로그램을 실행하는 프로세서를 포함하고,
    상기 프로그램은
    입력 영상에서 픽셀별로 형태 정보와 컬러 정보를 포함하는 특징값을 추출하고, 픽셀별 특징값을 이용하여 각 프레임의 히스토그램을 생성하며, 인접 프레임간 히스토그램 차이를 기초로 프레임들 중에서 샷 경계를 추출하는 동작을 수행하는 명령어들(instructions)을 포함하는 영상 처리 장치.
  15. 제14항에서,
    상기 프로그램은
    추출한 샷 경계를 기초로 구분되는 유사 프레임들의 집합에서 대표 프레임을 추출하고, 상기 대표 프레임에서 객체를 인식하는 동작을 수행하는 명령어들을 포함하는 영상 처리 장치.
KR1020150115910A 2014-08-25 2015-08-18 샷 경계 검출 방법, 그리고 이를 구현한 영상 처리 장치 및 방법 KR101706347B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140111019 2014-08-25
KR20140111019 2014-08-25

Publications (2)

Publication Number Publication Date
KR20160024767A true KR20160024767A (ko) 2016-03-07
KR101706347B1 KR101706347B1 (ko) 2017-02-14

Family

ID=55540195

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150115910A KR101706347B1 (ko) 2014-08-25 2015-08-18 샷 경계 검출 방법, 그리고 이를 구현한 영상 처리 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101706347B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190121547A (ko) 2018-04-18 2019-10-28 주식회사 더말코리아 로즈핑크 금속 박막층이 포함된 시트마스크 및 이의 제조방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009141508A (ja) * 2007-12-04 2009-06-25 Nippon Telegr & Teleph Corp <Ntt> テレビ会議装置、テレビ会議方法、プログラムおよび記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009141508A (ja) * 2007-12-04 2009-06-25 Nippon Telegr & Teleph Corp <Ntt> テレビ会議装置、テレビ会議方法、プログラムおよび記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAIST(2011) *
논문1:한국정보과학회(2014) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190121547A (ko) 2018-04-18 2019-10-28 주식회사 더말코리아 로즈핑크 금속 박막층이 포함된 시트마스크 및 이의 제조방법

Also Published As

Publication number Publication date
KR101706347B1 (ko) 2017-02-14

Similar Documents

Publication Publication Date Title
Cernekova et al. Information theory-based shot cut/fade detection and video summarization
JP6553692B2 (ja) 動画像背景除去方法及び動画像背景除去システム
KR100645300B1 (ko) 시청각 프리젠테이션의 컨텐츠를 요약화하여 색인화하는방법 및 장치
Denman et al. An adaptive optical flow technique for person tracking systems
Karaman et al. Comparison of static background segmentation methods
US20100067863A1 (en) Video editing methods and systems
CN111753762B (zh) 视频中关键标识的识别方法、装置、设备以及存储介质
JP2008527525A (ja) グラフィカルなオブジェクトを検出するための方法及び電子装置
US20180197577A1 (en) Thumbnail generation for video
WO2017027212A1 (en) Machine vision feature-tracking system
GB2431793A (en) Image comparison
WO2019225692A1 (ja) 映像処理装置、映像処理方法、および映像処理プログラム
US20130148899A1 (en) Method and apparatus for recognizing a character based on a photographed image
EP1932117A2 (en) Method and apparatus for determining automatically the shot type of an image (close-up shot versus long shot)
US20190065825A1 (en) Method for face searching in images
Lee et al. Video scene change detection using neural network: Improved ART2
CN112752110B (zh) 视频呈现方法及装置、计算设备、存储介质
KR101706347B1 (ko) 샷 경계 검출 방법, 그리고 이를 구현한 영상 처리 장치 및 방법
Setiawan et al. Gaussian mixture model in improved hls color space for human silhouette extraction
Cózar et al. Logotype detection to support semantic-based video annotation
CN113192081A (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
JP2003303346A (ja) 目標追跡方法、目標追跡装置、目標追跡プログラム、並びにこのプログラムを記録した記録媒体
Ortego et al. Multi-feature stationary foreground detection for crowded video-surveillance
Zhu et al. Background subtraction based on non-parametric model
Low et al. Frame Based Object Detection--An Application for Traffic Monitoring

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant