KR101709085B1 - 컨볼루션 신경망을 이용한 샷 경계 검출 방법 및 장치 - Google Patents
컨볼루션 신경망을 이용한 샷 경계 검출 방법 및 장치 Download PDFInfo
- Publication number
- KR101709085B1 KR101709085B1 KR1020150180362A KR20150180362A KR101709085B1 KR 101709085 B1 KR101709085 B1 KR 101709085B1 KR 1020150180362 A KR1020150180362 A KR 1020150180362A KR 20150180362 A KR20150180362 A KR 20150180362A KR 101709085 B1 KR101709085 B1 KR 101709085B1
- Authority
- KR
- South Korea
- Prior art keywords
- boundary
- shot
- frame
- frames
- image
- Prior art date
Links
Images
Classifications
-
- G06F17/30846—
-
- G06F17/30705—
-
- G06F17/30858—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
본 발명에 따르는 컨볼루션 신경망을 이용한 샷 경계 검출 장치는, 샷 경계 검출의 대상이 되는 비디오 정보를 입력받아 제1프레임들을 추출하는 제1프레임 추출부; 상기 제1프레임 추출부가 출력하는 제1프레임들 중 인접한 다수개의 제1프레임 각각에 대해 선택된 일부영역을 결합하여 제1프레임 경계 이미지를 생성하는 제1프레임 경계 이미지 추출부; 및 상기 제1프레임 경계 이미지를 제공받아, 상기 제1프레임 경계 이미지를 샷 경계 분류모델에 따라 분류하여 상기 제1프레임 경계 이미지가 샷 경계로 분류되는지 여부를 출력하는 제1컨볼루션 신경망 처리부;를 포함하며, 상기 샷 경계 분류모델은 샷 경계 종류별로 분류된 제2프레임 경계 이미지 정보를 포함하는 학습정보로부터 생성한 것임을 특징으로 한다.
Description
본 발명은 영상처리기술에 관한 것으로, 더욱 상세하게는 학습 비디오 정보로부터 추출한 프레임들 중 인접한 다수개의 프레임을 결합하여 프레임 경계 이미지를 생성하고, 이 프레임 경계 이미지를 샷 경계 종류에 따라 분류하여 컨볼루션 신경망에 입력하여 샷 경계 분류 모델을 생성하고, 그 샷 경계 분류 모델을 적용한 컨볼루션 신경망을 통해 샷 분류 대상 비디오 정보로부터 생성한 프레임 경계 이미지가 어느 샷 경계 종류로 분류되는지를 토대로 샷 경계를 검출하는 컨볼루션 신경망을 이용한 샷 경계 검출 방법 및 장치에 관한 것이다.
인터넷과 디지털 영상 기술의 발달로 디지털 동영상 저작물이 점점 많아지고 있다. 이렇게 많은 데이터를 구조적으로 기록하고 이후 임의의 사용자의 검색을 가능하기 위해선 단순 텍스트 검색보단 이미지의 특성과 영상의 정보를 이용한 검색이 더 효율적이다. 이러한 비디오 검색을 위해 비디오 파싱(parsing) 기능이 요구되었다. 상기 비디오 파싱은 비디오 분할과 비디오 색인으로 이루어져 있다. 상기 비디오 분할단계에서 비디오 스트림은 비디오 기본 단위인 샷(shot)과 장면(scene)으로 분할된다. 상기 샷이란 영상 제작자의 편집을 거치지 않은 연속적인 카메라 이동으로 얻어진 가장 작은 단위의 비디오 데이터이다. 상기 장면(scene)은 같은 의미를 가지는 연속된 여러 개의 샷이 모여서 이루어진 의미적인 데이터이다. 상기 샷은 컷(cut), 디졸브(dissolve), 페이드(fade), 와이프(wipe) 등과 같이 여러 가지 변화로 연결되어 있다. 이렇게 변화되는 샷의 경계를 찾는 것은 비디오 내용 기반 검색을 위하여 전체 비디오 데이터를 효과적으로 구성하는데 가장 기본이 되는 핵심 기술이다.
현재까지 샷 경계 검출을 위하여 많은 연구가 진행되어 왔다. 많은 연구 결과들에서 급격한 장면 변환과 점진적 장면 변환을 위한 탐지모델을 각각 따로 정의하고 있으며, 이런 경우 특징 선택 및 변수 설정을 모델별로 수행하였다.
Zhang et al.[H. J. Zhang, A. Kankanhalli, and S. W. Smoliar, "Automatic partitioning of full-motion video," ACM Multimedia Systems, 1: pp.10-28, 1993.]은 연속된 프레임들의 히스토그램 차를 이용하는 트윈 컴패리슨(twin-comparison) 방법을 이용하여 갑작스런 장면 변화와 점진적 장면 변화를 검출하였다. 이 방법은 비교적 좋은 결과를 나타내지만, 응용 대상에 따라 적절한 임계값을 설정할 수 있는지 여부에 따라 성능이 좌우되는 문제가 있었다.
Alattar[A. M. Alattar, "Detecting and compressing dissolve regions in video sequences with DVI multimedia image compression algorithm," ISCAS, 13-16, 1993.] 그리고 Meng et al.[J. Meng, Y. Juan, S. F. Chang, "Scene change detection in a MPEG compressed video sequence," IS&T/SPIE Symposium, Proceedings, vol. 2419, Feb. 1995.]은 점진적 장면 변화의 하나인 디졸브 검출을 위해 동영상의 각 프레임의 분산으로부터 만들어지는 분산 곡선의 특징을 이용하였다. 상기 분산 곡선은 디졸브 구간에서 아래로 볼록한 포물선 모양을 나타나게 되는데, Alattar는 디졸브 구간의 시작과 끝에서 분산 곡선의 2차 미분값이 음의 최소값으로 나타남을 증명하고 이를 음의 최소값이 일정한 임계값을 넘는 구간에 대해 그 구간의 평균이 또 다른 임계값보다 크고 그 구간의 길이가 일정한 길이보다 큰 구간을 디졸브 구간으로 정의하였다. 또한 Meng은 분산 곡선의 1차 미분에서 인접한 최대값과 최소값의 차이를 기준으로 디졸브 구간을 찾았다. 그러나 이들의 방법은 1, 2차 미분에서 최대값과 최소값 또는 다른 조건을 만족할 수 있도록 임계값을 설정해야 하는데, 대상 동영상에 따라 사용자의 경험에 의존하여 적절한 임계값을 설정할 수 있느냐에 따라 성능이 좌우되는 문제가 있었다. 즉 사용자에 의한 임계값 설정에 따라 샷 경계 검출의 성능이 달라지고, 샷 경계 종류에 따라 구성된 탐지 모델들을 각각 고려해서 임계값을 적절하게 설정해주어야 한다는 문제점이 있었다.
이와같이 샷 경계를 검출하여 샷들을 분할하는 작업은 효과적인 비디오 검색 시스템을 구축하기 위한 기본적인 작업으로, 효과적인 비디오 분석을 위해서는 신뢰할만한 샷 경계 검출 기술이 요구되었다.
이러한 요구에 부응하여 많은 종류의 샷 경계 검출 기법들이 제안되었으며, 종래의 기법들은 샷 경계 종류에 따라 각각의 탐지 모델을 만들어 포괄적인 샷 경계 검출이 어려웠고, 사용자가 설정한 임계값을 이용하여 샷 경계를 검출하므로 사용자의 경험과 소양에 따라 성능이 좌우되는 문제가 있었다.
본 발명은 학습 비디오 정보로부터 추출한 프레임들 중 인접한 다수개의 프레임을 결합하여 프레임 경계 이미지를 생성하고, 이 프레임 경계 이미지를 샷 경계 종류에 따라 분류하여 컨볼루션 신경망에 입력하여 샷 경계 분류 모델을 생성하고, 그 샷 경계 분류 모델을 적용한 컨볼루션 신경망을 통해 샷 분류 대상 비디오 정보로부터 생성한 프레임 경계 이미지가 어느 샷 경계 종류로 분류되는지를 토대로 샷 경계를 검출하는 컨볼루션 신경망을 이용한 샷 경계 검출 방법 및 장치를 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명에 따르는 컨볼루션 신경망을 이용한 샷 경계 검출 장치는, 샷 경계 검출의 대상이 되는 비디오 정보를 입력받아 제1프레임들을 추출하는 제1프레임 추출부; 상기 제1프레임 추출부가 출력하는 제1프레임들 중 인접한 다수개의 제1프레임 각각에 대해 선택된 일부영역을 결합하여 제1프레임 경계 이미지를 생성하는 제1프레임 경계 이미지 추출부; 및 상기 제1프레임 경계 이미지를 제공받아, 상기 제1프레임 경계 이미지를 샷 경계 분류모델에 따라 분류하여 상기 제1프레임 경계 이미지가 샷 경계로 분류되는지 여부를 출력하는 제1컨볼루션 신경망 처리부;를 포함하며, 상기 샷 경계 분류모델은 샷 경계 종류별로 분류된 제2프레임 경계 이미지 정보를 포함하는 학습정보로부터 생성한 것임을 특징으로 한다.
상기한 본 발명은 학습 비디오 정보로부터 추출한 프레임들 중 인접한 다수개의 프레임을 결합하여 프레임 경계 이미지를 생성하고, 이 프레임 경계 이미지를 샷 경계 종류에 따라 분류하여 컨볼루션 신경망에 입력하여 샷 경계 분류 모델을 생성하고, 그 샷 경계 분류 모델을 적용한 컨볼루션 신경망을 통해 샷 분류 대상 비디오 정보로부터 생성한 프레임 경계 이미지가 어느 샷 경계 종류로 분류되는지를 토대로 샷 경계를 검출함으로써, 샷 경계 검출의 성능을 일정하게 유지할 수 있는 효과를 야기한다.
도 1은 본 발명의 바람직한 실시예에 따른 프레임 경계 이미지 생성과정을 예시한 도면.
도 2는 본 발명의 바람직한 실시예에 따른 프레임 경계 이미지들을 샷 경계 종류에 따라 구분하여 예시한 도면.
도 3은 본 발명의 바람직한 실시예에 따른 샷 경계 종류에 따른 프레임 경계 이미지들의 특성을 정리한 표를 도시한 도면.
도 4는 본 발명의 바람직한 실시예에 따른 컨볼루션 신경망을 이용한 샷 경계 검출 장치의 구성도.
도 5는 본 발명의 성능실험을 위한 훈련 비디오 정보의 구성을 정리한 표를 도시한 도면.
도 6은 본 발명의 성능실험 결과를 정리한 표를 도시한 도면.
도 2는 본 발명의 바람직한 실시예에 따른 프레임 경계 이미지들을 샷 경계 종류에 따라 구분하여 예시한 도면.
도 3은 본 발명의 바람직한 실시예에 따른 샷 경계 종류에 따른 프레임 경계 이미지들의 특성을 정리한 표를 도시한 도면.
도 4는 본 발명의 바람직한 실시예에 따른 컨볼루션 신경망을 이용한 샷 경계 검출 장치의 구성도.
도 5는 본 발명의 성능실험을 위한 훈련 비디오 정보의 구성을 정리한 표를 도시한 도면.
도 6은 본 발명의 성능실험 결과를 정리한 표를 도시한 도면.
본 발명에 따르는 컨볼루션 신경망(Convolutional Neural Networks, 이하, CNN이라 칭함)을 이용한 샷 경계 검출은, 학습 비디오 정보로부터 추출한 프레임들 중 인접한 다수개의 프레임을 결합하여 프레임 경계 이미지를 생성하고, 이 프레임 경계 이미지를 샷 경계 종류에 따라 분류하여 CNN에 입력하여 샷 경계 분류 모델을 생성하고, 그 샷 경계 분류 모델을 적용한 CNN을 통해 샷 분류 대상 비디오 정보로부터 생성한 프레임 경계 이미지가 어느 샷 경계 종류로 분류되는지를 토대로 샷 경계를 검출함으로써, 샷 경계 검출의 성능을 일정하게 유지할 수 있다.
특히 상기 CNN으로는 GoogLeNet을 채용할 수 있으며, 이는 ILSVRC 2014에서 우승한 컨볼루션 신경망으로 클래스 분류와 탐색에 뛰어난 성능을 보인다. 이에 본 발명에서는 샷 경계별로 인접한 다수개의 프레임을 결합하여 [프레임 경계 이미지]를 생성하고, 그 프레임 경계 이미지를 상기 GoogLeNet의 입력으로 주어 샷 경계별 프레임 경계 이미지의 특성을 학습하여 샷 경계의 종류를 분류해낼 수 있는 샷 경계 분류 모델을 생성하고, 그 샷 경계 분류 모델을 통해 샷 분류 대상 비디오 정보로부터 생성한 프레임 경계 이미지가 어느 샷 경계의 특성에 부합되는지를 토대로 샷 경계의 종류로 분류되게 함으로써, 샷 경계 여부를 검출한다. 이는 상기 프레임 경계 이미지에는 샷 경계 각각에 따른 특성을 포함하고 있을 것으로 기대하여, 이 특성에 따라 CNN이 분류 작업을 수행하게 하는 것이다. 이와 같이 본 발명은 비디오 정보의 샷 경계를 검출하는 것을 CNN을 이용한 분류 문제로 처리한다.
상기 [프레임 경계 이미지]는 N개 크기의 윈도우에 포함된 인접한 N개의 프레임에 대해 각기 다르게 선택된 일부영역을 결합하여 N개의 프레임을 한 장의 이미지로 나타낸 것으로, 샷 경계의 포함여부와 샷 경계의 종류별로 상이한 특성을 가진다.
이러한 [프레임 경계 이미지]의 생성과정을 도 1을 참조하여 설명한다. 상기 도 1의 (a)에 예시한 프레임 경계 이미지는 인접한 두 프레임, 즉 A 및 B 프레임 각각을 반씩 균등분할하고, A 프레임의 좌측 절반 부분인 A' 영역과 B 프레임의 우측 절반 부분인 B' 영역을 결합하여 형성한 것이다. 그리고 도 1의 (b)에 예시한 프레임 경계 이미지는 인접한 네 프레임인 A 내지 D 프레임 각각을 4개로 균등분할하고, A 프레임의 1/4 부분인 A0 영역과 B 프레임의 2/4 부분인 B1 영역과 C 프레임의 3/4 부분인 C2 영역과 D 프레임의 4/4 부분인 D3 영역을 결합하여 형성한 것이다. 상기한 예에서는 네 프레임의 부분들을 순서대로 조합하는 것만을 예시하였으나, 인접된 프레임의 수 및 조합 순서는 가변될 수 있으며, 이는 본 발명에 의해 당업자에게 자명하다.
상기한 바와 같이 형성된 [프레임 경계 이미지]는 샷 경계에 따라 상이한 특성을 가지며, 이를 예시한 것이 도 2이다. 여기서, 상기 도 2는 편이상 인접한 두 프레임을 결합하여 프레임 경계 이미지를 생성한 예를 도시한 것이다. 상기 도 2의 (a)는 샷 경계가 없는 경우(non)의 인접한 두 프레임 사이의 프레임 경계 이미지를 나타내고, (b)는 샷 경계 중 컷(cut)에서 만들어진 프레임 경계 이미지이고, (c)는 샷 경계 중 디졸브(dissolve)에서 만들어진 프레임 경계 이미지이고, (d)는 샷 경계 중 페이드(fade)에서 만들어진 프레임 경계 이미지이다.
이러한 프레임 경계 이미지들을 참조하면, 샷 경계에서 만들어진 프레임 경계 이미지 (b),(c),(d)는 샷 경계가 없는 일반 프레임으로부터 만들어진 프레임 경계 이미지 (a)와는 구별되는 특성이 있다. 즉, (b)는 장면이 급진적으로 변화하여 중앙선을 기준으로 서로 다른 장면이 합쳐짐에 따라 명확한 경계선이 형성되고, (c)는 디졸브의 특징이 반영되어 서로 다른 장면이 겹쳐서 보이게 나타나고, (d)는 페이드의 특징이 반영되어 중앙선을 기준으로 명확한 밝기 차이가 나타난다.
이러한 프레임 경계 이미지의 특성을 정리한 표를 도시한 것이 도 3이다. 상기 도 3을 참조하면, 넌(non)의 프레임 경계 이미지는 샷 경계가 없는 여러 프레임으로부터 획득된 것으로 밝기값의 차이가 없고 겹침이 없고 경계선이 없는 특성을 가지고, 페이드(fade)의 프레임 경계 이미지는 어두워지면서 샷이 변경되는 두 프레임으로부터 획득된 것으로 명확한 밝기 차이가 있는 특성을 가지고, 디졸브(dissolve)의 프레임 경계 이미지는 여러 프레임의 겹쳐지면서 샷이 변경되는 여러 프레임으로부터 획득된 것으로 명확한 겹침이 있는 특성을 가지고, 컷(cut)의 프레임 경계 이미지는 프레임과 프레임이 급격하게 변경되므로 중앙부분에 경계선이 있는 특성을 가진다.
이에 본 발명은 상기한 바와 같이 프레임 경계 이미지에는 샷 경계의 종류에 따라 각기 상이한 특성을 포함하고 있으므로 CNN을 통해 상기 특성을 바탕으로 프레임 경계 이미지의 샷 경계의 종류를 분류하도록 함으로써 샷 경계 여부를 판별한다.
<컨볼루션 신경망을 이용한 샷 경계 검출 장치의 구성>
이러한 본 발명의 바람직한 실시예에 따른 컨볼루션 신경망을 이용한 샷 경계 검출 장치의 구성을 도 4를 참조하여 설명한다.
상기 컨볼루션 신경망을 이용한 샷 경계 검출 장치는 크게 학습부(100)와 분류부(200)로 구성된다. 상기 학습부(100)는 다수개의 프레임을 결합하여 프레임 경계 이미지를 생성하고, 이 프레임 경계 이미지와 샷 경계 종류정보를 결합하여 학습정보를 생성하고, 그 학습정보를 컨볼루션 신경망에 통해 학습하여 샷 경계 분류모델을 생성하며, 이는 제1프레임 추출부(102)와 제1프레임 경계 이미지 추출부(104)와 학습정보 생성부(106)와 제1CNN 처리부(108)로 구성된다. 그리고 상기 분류부(200)는 샷 경계 검출의 대상이 되는 비디오 정보를 입력받아 프레임 경계 이미지를 생성하고, 이를 상기 샷 경계 분류모델을 토대로 샷 경계 종류별로 분류함으로써 샷 경계 여부를 판별하며, 이는 제2프레임 추출부(202)와 제2프레임 경계 이미지 추출부(204)와 제2CNN 처리부(206)로 구성된다. 특히 상기 프레임 경계 이미지는 인접된 다수개의 프레임 각각에 대해 일부를 각기 다르게 선택하여 결합하여 생성한 것으로, 이는 샷 경계 종류에 따라 상이한 특성을 가지며, 이 특성을 CNN이 학습하여 샷 경계의 종류를 분류할 수 있게 된다.
<학습부>
상기 학습부(100)의 구성 및 동작을 좀더 상세히 설명한다.
상기 학습부(100)는 지도 학습(Supervised-learning) 방법을 따르고 있기 때문에 학습에 필요한 샷 경계 정보는 사전에 사람으로부터 제공받는다.
상기 학습부(100)의 제1프레임 추출부(102)는 학습 비디오 정보를 입력받아 프레임들을 추출하여 제1프레임 경계 이미지 추출부(104)로 제공한다. 상기 제1프레임 경계 이미지 추출부(104)는 도 1에 도시한 바와 같이 제1프레임 추출부(102)가 순차적으로 입력되는 프레임들 중 인접된 다수개의 프레임 각각에 대해 일부를 선택적으로 취한 후에 하나의 이미지로 결합하여 프레임 경계 이미지를 생성한다.
상기 제1프레임 경계 이미지 추출부(104)는 상기 프레임 경계 이미지를 학습정보 생성부(106)로 제공한다.
상기 학습정보 생성부(106)는 제1프레임 경계 이미지 추출부(104)가 제공하는 프레임 경계 이미지에 대한 샷 경계 종류 정보를 외부로부터 입력받아, 샷 경계 분류 라벨정보가 결합된 샷 경계 이미지 형태의 학습정보를 생성하여 제1CNN 처리부(108)에 제공한다.
상기 제1CNN 처리부(108)는 상기 학습정보를 제공받아 컨볼루션 신경망으로 학습하여, 프레임 경계 이미지에 대해 샷 경계 종류별로 분류하는 샷 경계 분류 모델을 생성하여 상기 분류부(200)에 제공한다.
상기 분류부(200)의 제2프레임 추출부(202)는 샷 경계 검출의 대상이 되는 비디오 정보를 입력받아 프레임들을 추출하고, 이를 제2프레임 경계 이미지 추출부(204)로 제공한다.
상기 제2프레임 경계 이미지 추출부(204)는 상기 제2프레임 추출부(202)가 제공하는 프레임들을 제공받아, 인접된 다수개의 프레임 각각에 대해 일부를 선택적으로 결합하여 프레임 경계 이미지를 생성한다. 여기서, 이러한 프레임 경계 이미지를 생성하기 위한 프레임 분할 및 선택은 제1프레임 경계 이미지 추출부(104)와 동일한 방식으로 결정된다.
상기 제2프레임 경계 이미지 추출부(204)는 상기 인접된 다수개의 프레임 각각에 대해 일부를 선택적으로 결합한 프레임 경계 이미지를 제2CNN 처리부(206)로 제공한다.
상기 제2CNN 처리부(206)는 상기 학습부(100)가 제공한 샷 경계 분류모델에 따라 상기 프레임 경계 이미지를 샷 경계의 종류로 분류하여, 상기 프레임 경계 이미지가 미리 정해진 샷 경계의 종류, 즉 컷, 디졸브, 페이드의 샷 경계에 해당되는 프레임 경계 이미지로 분류되는지 여부를 토대로 샷 경계 여부를 판별하고 그 결과를 출력한다.
이러한 본 발명에 따르는 컨볼루션 신경망을 이용한 샷 경계 검출 장치가 수행하는 기능은 소프트웨어의 형태로 구성될 수도 있으며, 이는 본 발명에 의해 당업자에게 자명하다. 또한 소프트웨어의 형태로 구성된 컨볼루션 신경망을 이용한 샷 경계 검출 프로그램은 소정의 프로그램 데이터가 저장된 기억장치(ROM, RAM, 하드디크스 등)와, 상기 프로그램 데이터를 실행하는 CPU에 의해 실현된다. 이 경우, 각 프로그램 데이터는 CD-ROM과 USB 메모리 등의 기록매체에 기록되어 제공될 수 있다.
<성능 평가>
이러한 본 발명에 따르는 컨볼루션 신경망을 이용한 샷 경계 검출은, 학습과 분류로 이루어진다. 상기 학습 단계에서는 비디오 정보에서 추출한 프레임들 중 인접한 다수개의 프레임의 결합을 통해 프레임 경계 이미지를 얻는다. 이 프레임 경계 이미지 중 샷 경계를 나타내는 이미지들을 골라 컨볼루션 신경망에 입력하여 샷 경계를 학습시킨다. 그리고 상기 분류 단계에서는 학습을 통해 구성된 모델을 가지고 새로운 비디오 정보의 프레임 경계 이미지를 분류하여 샷 경계를 검출한다. 이러한 본 발명에 따르는 샷 경계 검출의 성능을 평가하기 위해 정확률(precision)과 재현율(recall)을 평가 지표로 사용한다.
본 발명의 성능 실험에는 KBS <생로병사의 비밀> 13개의 동영상을 사용하였다. 먼저 학습에 10개의 동영상을 사용하고, 분류에 3개의 동영상을 사용하였다. 상기 <생로병사의 비밀>은 컷, 디졸브, 페이드를 사용하여 샷 전환을 한다. 비디오 길이는 평균 48분이고 해상도는 480ⅹ360이다. 본 발명에서는 이미지의 중심을 기준으로 256ⅹ256으로 이미지를 잘라서 사용하였다.
먼저 학습단계에서 10개의 동영상에서 총 22818개의 샷 경계를 나타내는 프레임 경계 이미지를 추출했다. 여기서, 25%를 유효(validation)로 하여 훈련(train) 이미지는 17115개, 유효(validation) 이미지는 5703개로 구성했다. 즉, 학습에 사용된 경계 이미지 개수를 정리한 도 5의 표를 참조하면, 훈련시에는 넌(non)이 4430개, 컷(cut)이 4237개, 디졸브(dessolve)가 4150개, 페이드(fade)가 4298개로 총 17115개가 사용되고, 그 중 유효 이미지는 넌(non)이 1476개, 컷(cut)이 1412개, 디졸브(dessolve)가 1383개, 페이드(fade)가 1432개로 총 5703개가 사용된다.
이러한 학습단계를 거쳐 구성된 모델을 이용하여 분류단계에서는 새로운 프레임 경계 이미지를 모델의 입력으로 하여 이미지를 분류함으로써 샷 경계를 검출한다.
도 6의 표 2는 본 발명에 따르는 샷 경계를 검출한 결과를 나타낸 것이다. 상기 표 2에서 C는 컷 경계 이미지이고, D는 디졸브 경계 이미지, F는 페이드 경계 이미지이다. 은 실제 경계 이미지 개수, 은 검색된 경계 이미지 개수, 은 잘 인식된 경계 이미지 개수, 은 오 인식된 경계 이미지 개수, 은 놓친 경계 이미지 개수를 나타낸다. 정확률(P.)은 로 나타내고 재현율(R.)은 로 나타낸다.
상기한 성능실험의 결과는 페이드 검출에서 페이드를 놓치는 경우가 많아 재현율이 낮게 나왔다. 그러나 정확률은 100%로 좋은 결과를 보여준다. 그리고 컷과 디졸브도 정확률이 100%, 97%, 재현율이 97%, 96%로 좋은 결과를 내고 있다.
이러한 본 발명의 컨볼루션 신경망을 이용한 샷 경계 검출은 샷 경계를 사용자의 설정없이 한 모델로 포괄적으로 검출할 수 있다. 특히 샷 경계에 대한 프레임 경계 이미지로 기계를 학습시켜 모델을 구성하고, 비디오 정보에서 추출한 프레임들에서 프레임 경계 이미지를 만들어 학습단계에서 구성한 모델을 통해 경계 이미지를 분류함으로써 샷 경계를 검출한다.
이와 같이 기계가 학습을 통해 스스로 모델을 구성하고 임계값을 설정하여 기존에 사용자가 모델을 구성하고, 임계값을 설정했던 방법과 달리 샷 경계 검출의 성능을 일정하게 유지시킬 수 있다.
100 : 학습부
102 : 제1프레임 추출부
104 : 제1프레임 경계 추출부
106 : 학습정보 생성부
108 : 제1CNN 처리부
200 : 분류부
202 : 제1프레임 추출부
204 : 제2프레임 경계 이미지 추출부
206 : 제2CNN 처리부
102 : 제1프레임 추출부
104 : 제1프레임 경계 추출부
106 : 학습정보 생성부
108 : 제1CNN 처리부
200 : 분류부
202 : 제1프레임 추출부
204 : 제2프레임 경계 이미지 추출부
206 : 제2CNN 처리부
Claims (6)
- 컨볼루션 신경망을 이용한 샷 경계 검출 장치에 있어서,
샷 경계 검출의 대상이 되는 비디오 정보를 입력받아 제1프레임들을 추출하는 제1프레임 추출부;
상기 제1프레임 추출부가 출력하는 제1프레임들 중 인접한 다수개의 제1프레임 각각에 대해 선택된 일부영역을 결합하여 제1프레임 경계 이미지를 생성하는 제1프레임 경계 이미지 추출부;
상기 제1프레임 경계 이미지를 제공받아, 상기 제1프레임 경계 이미지를 샷 경계 분류모델에 따라 분류하여 상기 제1프레임 경계 이미지가 샷 경계로 분류되는지 여부를 출력하는 제1컨볼루션 신경망 처리부;
학습 비디오 정보를 입력받아 제2프레임들을 추출하는 제2프레임 추출부;
상기 제2프레임들 중 인접한 다수개의 프레임에 대해 선택된 일부영역을 결합하여 제2프레임 경계 이미지를 생성하는 제2프레임 경계 이미지 추출부;
상기 제2프레임 경계 이미지와 외부로부터 제공받은 샷 경계 종류정보를 결합하여 학습정보를 생성하여 출력하는 학습정보 생성부; 및
상기 학습정보를 제공받아, 그 학습정보를 토대로 샷 경계 종류별 제2프레임 경계 이미지를 학습하여 상기 샷 경계 분류모델을 생성하는 제2컨볼루션 신경망 처리부;를 포함하며,
상기 샷 경계 분류모델은 샷 경계 종류별로 분류된 제2프레임 경계 이미지 정보를 포함하는 학습정보로부터 생성한 것임을 특징으로 하는 컨볼루션 신경망을 이용한 샷 경계 검출 장치. - 삭제
- 제1항에 있어서,
상기 제1 또는 제2프레임 경계 이미지는,
인접한 다수개의 프레임 각각을 다수개로 분할하고,
다수개의 프레임 각각에서 서로 다른 위치에 위치하는 분할영역들을 선택적으로 취하여 결합하여 하나의 이미지를 생성한 것임을 특징으로 하는 컨볼루션 신경망을 이용한 샷 경계 검출 장치. - 컨볼루션 신경망을 이용한 샷 경계 검출 방법에 있어서,
샷 경계 검출의 대상이 되는 비디오 정보를 입력받아 제1프레임들을 추출하는 단계;
상기 제1프레임들 중 인접한 다수개의 제1프레임 각각에 대해 선택된 일부영역을 결합하여 제1프레임 경계 이미지를 생성하는 단계;
상기 제1프레임 경계 이미지를 제공받아, 상기 제1프레임 경계 이미지를 샷 경계 분류모델에 따라 분류하여 상기 제1프레임 경계 이미지가 샷 경계로 분류되는지 여부를 출력하는 단계;
학습 비디오 정보를 입력받아 제2프레임들을 추출하는 단계;
상기 제2프레임들 중 인접한 다수개의 제2프레임에 대해 선택된 일부영역을 결합하여 제2프레임 경계 이미지를 생성하는 단계;
상기 제2프레임 경계 이미지와 외부로부터 제공받은 샷 경계 종류정보를 결합하여 학습정보를 생성하여 출력하는 단계; 및
상기 학습정보를 제공받아, 그 학습정보를 토대로 샷 경계 종류별 제2프레임 경계 이미지를 학습하여 상기 샷 경계 분류모델을 생성하는 단계;를 포함하며,
상기 샷 경계 분류모델은 샷 경계 종류별로 분류된 제2프레임 경계 이미지 정보를 포함하는 학습정보로부터 생성한 것임을 특징으로 하는 컨볼루션 신경망을 이용한 샷 경계 검출 방법. - 삭제
- 제4항에 있어서,
상기 제1 또는 제2프레임 경계 이미지는,
인접한 다수개의 프레임 각각을 다수개로 분할하고,
다수개의 프레임 각각에서 서로 다른 위치에 위치하는 분할영역들을 선택적으로 취하여 결합하여 하나의 이미지를 생성한 것임을 특징으로 하는 컨볼루션 신경망을 이용한 샷 경계 검출 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150180362A KR101709085B1 (ko) | 2015-12-16 | 2015-12-16 | 컨볼루션 신경망을 이용한 샷 경계 검출 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150180362A KR101709085B1 (ko) | 2015-12-16 | 2015-12-16 | 컨볼루션 신경망을 이용한 샷 경계 검출 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101709085B1 true KR101709085B1 (ko) | 2017-02-23 |
Family
ID=58315324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150180362A KR101709085B1 (ko) | 2015-12-16 | 2015-12-16 | 컨볼루션 신경망을 이용한 샷 경계 검출 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101709085B1 (ko) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101912570B1 (ko) * | 2018-07-11 | 2018-10-26 | 전북대학교산학협력단 | 인공신경망을 이용한 물체 추적시스템 |
KR101912569B1 (ko) * | 2018-07-11 | 2018-10-26 | 전북대학교산학협력단 | 비디오 영상에서의 물체 추적시스템 |
KR20190033933A (ko) * | 2017-09-22 | 2019-04-01 | 한국전자통신연구원 | 영상 컨텐츠의 샷 분할 방법 및 장치 |
KR20190052587A (ko) * | 2017-11-08 | 2019-05-16 | 삼성전자주식회사 | 뉴럴 네트워크 장치 및 그 동작 방법 |
KR20190056161A (ko) * | 2017-11-16 | 2019-05-24 | 주식회사 지오비전 | 비디오 서머리 방법 |
WO2020013395A1 (ko) * | 2018-07-11 | 2020-01-16 | 전북대학교산학협력단 | 비디오 영상에서의 물체 추적 시스템 |
KR20200038775A (ko) * | 2018-10-04 | 2020-04-14 | 라온피플 주식회사 | 다 채널 이미지를 이용한 인공신경망 학습 방법 및 장치 |
KR102237097B1 (ko) * | 2021-01-12 | 2021-04-08 | 헬리오센 주식회사 | 인공지능을 이용하는 항공촬영 수치표면모델의 수치표고모델 변환 시스템 |
US11380117B1 (en) * | 2020-12-23 | 2022-07-05 | Abbyy Development Inc. | Zero-footprint image capture by mobile device |
RU2787136C2 (ru) * | 2020-12-23 | 2022-12-29 | АБИ Девелопмент, Инк. | Бесследный захват изображения с помощью мобильного устройства |
US11715280B2 (en) | 2018-08-01 | 2023-08-01 | Kyungpook National University Industry-Academic Cooperation Foundation | Object detection device and control method |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002525735A (ja) * | 1998-09-10 | 2002-08-13 | マイクロソフト コーポレイション | ベクトル画像シーケンスにおける意味対象物の追跡 |
KR20020075956A (ko) * | 2001-03-26 | 2002-10-09 | 주식회사 코난테크놀로지 | 장면전환 검출방법 |
KR20050041761A (ko) | 2003-10-31 | 2005-05-04 | 학교법인 정석학원 | 샷 전환 프레임 검출방법 |
KR20050089498A (ko) | 2004-03-05 | 2005-09-08 | 삼성전자주식회사 | 동영상의 비디오 샷 변화 검출 방법 및 장치 |
KR20130108427A (ko) * | 2011-01-07 | 2013-10-02 | 알까뗄 루슨트 | 비디오들을 비교하는 방법 및 장치 |
-
2015
- 2015-12-16 KR KR1020150180362A patent/KR101709085B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002525735A (ja) * | 1998-09-10 | 2002-08-13 | マイクロソフト コーポレイション | ベクトル画像シーケンスにおける意味対象物の追跡 |
KR20020075956A (ko) * | 2001-03-26 | 2002-10-09 | 주식회사 코난테크놀로지 | 장면전환 검출방법 |
KR20050041761A (ko) | 2003-10-31 | 2005-05-04 | 학교법인 정석학원 | 샷 전환 프레임 검출방법 |
KR20050089498A (ko) | 2004-03-05 | 2005-09-08 | 삼성전자주식회사 | 동영상의 비디오 샷 변화 검출 방법 및 장치 |
KR20130108427A (ko) * | 2011-01-07 | 2013-10-02 | 알까뗄 루슨트 | 비디오들을 비교하는 방법 및 장치 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190033933A (ko) * | 2017-09-22 | 2019-04-01 | 한국전자통신연구원 | 영상 컨텐츠의 샷 분할 방법 및 장치 |
KR102413043B1 (ko) * | 2017-09-22 | 2022-06-24 | 한국전자통신연구원 | 영상 컨텐츠의 샷 분할 방법 및 장치 |
KR20190052587A (ko) * | 2017-11-08 | 2019-05-16 | 삼성전자주식회사 | 뉴럴 네트워크 장치 및 그 동작 방법 |
KR102578826B1 (ko) * | 2017-11-08 | 2023-09-15 | 삼성전자주식회사 | 뉴럴 네트워크 장치 및 그 동작 방법 |
KR20190056161A (ko) * | 2017-11-16 | 2019-05-24 | 주식회사 지오비전 | 비디오 서머리 방법 |
KR101991043B1 (ko) * | 2017-11-16 | 2019-06-19 | 주식회사 지오비전 | 비디오 서머리 방법 |
KR101912570B1 (ko) * | 2018-07-11 | 2018-10-26 | 전북대학교산학협력단 | 인공신경망을 이용한 물체 추적시스템 |
KR101912569B1 (ko) * | 2018-07-11 | 2018-10-26 | 전북대학교산학협력단 | 비디오 영상에서의 물체 추적시스템 |
WO2020013395A1 (ko) * | 2018-07-11 | 2020-01-16 | 전북대학교산학협력단 | 비디오 영상에서의 물체 추적 시스템 |
US11715280B2 (en) | 2018-08-01 | 2023-08-01 | Kyungpook National University Industry-Academic Cooperation Foundation | Object detection device and control method |
KR20200038775A (ko) * | 2018-10-04 | 2020-04-14 | 라온피플 주식회사 | 다 채널 이미지를 이용한 인공신경망 학습 방법 및 장치 |
KR102273334B1 (ko) | 2018-10-04 | 2021-07-06 | 라온피플 주식회사 | 다 채널 이미지를 이용한 인공신경망 학습 방법 및 장치 |
RU2787136C2 (ru) * | 2020-12-23 | 2022-12-29 | АБИ Девелопмент, Инк. | Бесследный захват изображения с помощью мобильного устройства |
US11380117B1 (en) * | 2020-12-23 | 2022-07-05 | Abbyy Development Inc. | Zero-footprint image capture by mobile device |
US11948385B2 (en) | 2020-12-23 | 2024-04-02 | Abbyy Development Inc. | Zero-footprint image capture by mobile device |
KR102237097B1 (ko) * | 2021-01-12 | 2021-04-08 | 헬리오센 주식회사 | 인공지능을 이용하는 항공촬영 수치표면모델의 수치표고모델 변환 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101709085B1 (ko) | 컨볼루션 신경망을 이용한 샷 경계 검출 방법 및 장치 | |
US10417501B2 (en) | Object recognition in video | |
US8363960B2 (en) | Method and device for selection of key-frames for retrieving picture contents, and method and device for temporal segmentation of a sequence of successive video pictures or a shot | |
EP1081960A1 (en) | Signal processing method and video/voice processing device | |
Lian | Automatic video temporal segmentation based on multiple features | |
US20130336590A1 (en) | Method and apparatus for generating a visual story board in real time | |
CN114041165A (zh) | 一种视频相似检测的方法、装置及设备 | |
EP3295678A1 (en) | Entity based temporal segmentation of video streams | |
CN101543075A (zh) | 视频序列中渐变的检测 | |
JPH08237549A (ja) | 自動ビデオ区分とキーフレーム抽出用システム | |
KR102573933B1 (ko) | 기계 학습 기반의 실감 미디어 저작 방법 및 장치 | |
JP5537285B2 (ja) | 要約映像生成装置及び要約映像生成プログラム | |
KR20160107734A (ko) | 동영상의 시간정보를 이용한 유해 동영상 분류방법 및 장치 | |
KR100741300B1 (ko) | 비디오 시퀀스 구조의 자동 추출 방법 | |
KR101195613B1 (ko) | 동영상의 주제별 분할장치 및 방법 | |
JP2003503971A (ja) | ビデオシーケンスの構造の自動抽出方法 | |
Truong et al. | Improved fade and dissolve detection for reliable video segmentation | |
Camara-Chavez et al. | Shot boundary detection by a hierarchical supervised approach | |
JP5096259B2 (ja) | 要約コンテンツ生成装置および要約コンテンツ生成プログラム | |
Husa et al. | Automatic thumbnail selection for soccer videos using machine learning | |
KR102504321B1 (ko) | 온라인 행동 탐지 장치 및 방법 | |
Mishra et al. | Real time and non real time video shot boundary detection using dual tree complex wavelet transform | |
CN114189754B (zh) | 一种视频情节分段方法及系统 | |
KR102430756B1 (ko) | 객체탐지 및 집합이론을 이용한 영상의 장면 분할 장치 및 방법 | |
De Klerk et al. | Parameter analysis of the Jensen-Shannon divergence for shot boundary detection in streaming media applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20200304 Year of fee payment: 4 |
|
R401 | Registration of restoration |