KR20180093582A

KR20180093582A - 엔드투엔드 학습에 기반한 영상 이벤트 구간 인덱싱 방법 및 장치

Info

Publication number: KR20180093582A
Application number: KR1020170019870A
Authority: KR
Inventors: 박재혁; 조기성; 함경준
Original assignee: 한국전자통신연구원
Priority date: 2017-02-14
Filing date: 2017-02-14
Publication date: 2018-08-22

Abstract

본 발명은 영상 이벤트 인덱싱 모듈에서 명시적으로(explicitly) 영상 정보를 추출하지 아니하고, 영상정보 추출 모듈과 이벤트 인덱싱 모듈을 통합한 엔드투엔드(End-to-End) 학습 시스템 내에서 비명시적으로(implicitly) 영상 정보가 추출되도록 하는 방법이다. 본 발명의 제1특징에 따르면, 엔드투엔드 기반의 학습 모듈을 이용하여 목적 영상 내의 이벤트 구간을 인덱싱하는 방법이 제공된다. 이 방법은, 학습 영상, 학습 영상 내 이벤트들의 종류와 발생시간이 포함된 이벤트 리스트, 및 학습 영상의 각 프레임의 시간 정보를 입력정보로 하고, 이 입력정보에 대응하는 학습 영상에서의 각 이벤트의 구간 정보들을 정답 데이터로 하여 구성한 학습 데이터세트를 학습 모듈에 입력하여, 상기 입력정보에 의해 발생하는 출력과 정답 데이터 간의 오차가 최소화되도록 학습 알고리즘을 활용하여 영상의 각 프레임에 대하여, 이벤트 구간을 판단하는 과정을 반복하여 학습시키는 절차; 그리고 상기 학습 모듈에 목적 영상, 목적 영상 내 이벤트들의 종류와 발생시간이 포함된 이벤트 리스트, 및 목적 영상의 각 프레임의 시간 정보를 입력정보로서 입력하여 이 영상의 각 프레임이 이벤트 리스트 내의 각 이벤트 구간에 해당하는지 판단하는, 영상 내의 이벤트 구간을 인덱싱하는 절차를 포함한다.

Description

엔드투엔드 학습에 기반한 영상 이벤트 구간 인덱싱 방법 및 장치 {Method and apparatus for indexing event sections from video using end-to-end learning}

본 발명은 문자 중계 데이터에서 얻을 수 있는 이벤트 리스트와 중계 영상을 바탕으로 스포츠 영상 등에서의 이벤트 구간을 인덱싱하는 기술로서, 엔드투엔드(단대단, End-to-End) 학습을 이용하여 범용적으로 스포츠 영상 등의 이벤트 구간을 인덱싱하는 방법 및 장치에 관한 것이다.

최근 인터넷 사이트 등에선 특정 영상(가령, 스포츠경기 중계 영상 등)의 주요 이벤트만 편집한 짧은 영상 클립이 인기있는 컨텐츠이다. 시간이 긴 생중계보다는 요약된 하이라이트 영상만을 보는 것을 선호하는 사람들이 많아졌기 때문이다. 현재는 사람이 수작업으로 편집을 진행하기 때문에 생중계 시간으로부터 영상이 업로드되기까지 어느 정도 지연이 발생하고, 단순 반복적인 일을 많은 스포츠 영상에 대하여 수행하여야 하는 노동력을 필요로 한다.

특히 스포츠영상의 이벤트 구간 인덱싱을 자동화하기 위해서는 영상 분석 기술이 필수적이고, 문자 중계 데이터를 이용한다면 더욱 더 정확한 구분이 가능하다. 기존의 이러한 자동화 시스템들은 크게 두 가지 단계를 거쳐서 이벤트를 인덱싱하였다. 우선 각 스포츠 종목의 이벤트를 구분하기에 적합한 영상 특징(feature)들을 컴퓨터 비전 기술을 이용하여 추출한 후, 추출된 영상 특징 정보를 기반으로 하여 문자 중계의 각 이벤트에 해당하는 영상에서의 구간을 인덱싱한다. 여기에서 영상 특징의 예로는 샷 분류, 리플레이 여부, 카메라 움직임 정보, 선수 행동 정보와 같은 것들이 있다.

하지만 이러한 방법에는 몇 가지 문제점이 있는데, 우선 각 종목에 적합한 영상 특징들이 서로 다르기 때문에 모든 스포츠에 범용적인 시스템을 만들 수 없고, 각각의 종목에 필요한 영상 특징들을 고안해 내야 하는 부담이 있다. 특히 영상 특징 추출을 학습 기반 알고리즘으로 해결하고자 할 경우에는 학습 데이터 세트가 필요한데, 이 때에는 많은 프레임에 대한 영상정보 태깅이 필요하고 각 종목마다 다른 형식의 데이터 세트를 준비해야 하며 화면 구성이 다양한 스포츠의 경우에는(예를 들어, 야구) 해당 데이터 세트를 구성하는 데 더욱 많은 시간과 노동력을 필요로 한다.

대한민국 등록특허: 공고일자 2007년 12월 12일, 등록번호 10-0785076

전술한 종래기술의 문제점을 해결하기 위하여, 본 발명은 영상 이벤트 인덱싱 모듈에서 명시적으로(explicitly) 영상 정보를 추출하지 아니하고, 영상정보 추출 모듈과 이벤트 인덱싱 모듈을 통합한 본 발명의 엔드투엔드(End-to-End) 학습 시스템 내에서 비명시적으로(implicitly) 영상 정보가 추출되도록 한다. 즉, 사람이 각 영상 유형(가령, 스포츠 종목 등)의 인덱싱에 필요한 영상 특징을 직접 고안할 필요가 없고, 신경망 기반의 학습 모듈에서의 학습을 통하여 자동으로 필요한 영상 특징을 설계하는 방법을 제안하고자 한다.

상기 과제 해결을 위한 본 발명의 제1특징에 따르면, 엔드투엔드 기반의 학습 모듈을 이용하여 목적 영상 내의 이벤트 구간을 인덱싱하는 방법이 제공된다. 이 방법은,

학습 영상, 학습 영상 내 이벤트들의 종류와 발생시간이 포함된 이벤트 리스트, 및 학습 영상의 각 프레임의 시간 정보를 입력정보로 하고, 이 입력정보에 대응하는 학습 영상에서의 각 이벤트의 구간 정보들을 정답 데이터로 하여 구성한 학습 데이터세트를 학습 모듈에 입력하여, 상기 입력정보에 의해 발생하는 출력과 정답 데이터 간의 오차가 최소화되도록 학습 알고리즘을 활용하여 영상의 각 프레임에 대하여, 이벤트 구간을 판단하는 과정을 반복하여 학습시키는 절차; 그리고 상기 학습 모듈에 목적 영상, 목적 영상 내 이벤트들의 종류와 발생시간이 포함된 이벤트 리스트, 및 목적 영상의 각 프레임의 시간 정보를 입력정보로서 입력하여 이 영상의 각 프레임이 이벤트 리스트 내의 각 이벤트 구간에 해당하는지 판단하는, 영상 내의 이벤트 구간을 인덱싱하는 절차를 포함한다.

또한, 과제해결을 위한 본 발명의 제2특징에 따르면, 엔드투엔드 기반의 학습을 통하여 목적 영상 내의 이벤트 구간을 인덱싱하는 장치가 제공된다. 이 장치는, 학습 영상, 학습 영상 내 이벤트들의 종류와 발생시간이 포함된 이벤트 리스트, 및 학습 영상의 각 프레임의 시간 정보를 입력정보로 하고, 이 입력정보에 대응하는 학습 영상에서의 각 이벤트의 구간 정보들을 정답 데이터로 하여 구성한 학습 데이터세트를 입력받는 수단; 그리고 상기 입력정보에 의해 발생하는 출력과 정답 데이터 간의 오차가 최소화되도록 학습 알고리즘을 활용하여 영상의 각 프레임에 대하여 이벤트 구간을 판단하는 과정을 반복하여 학습하고, 학습 후, 입력된 목적 영상의 각 프레임이 목적 영상 내 이벤트 리스트의 각 이벤트 구간에 해당하는지 판단하여 영상 내의 이벤트 구간을 인덱싱하는 수단을 포함한다.

또한, 과제해결을 위한 본 발명의 제3특징에 따르면, 목적 영상 내의 이벤트 구간을 인덱싱하기 위하여 학습 알고리즘에 의한 학습을 수행하는 신경망이 제공된다. 이 신경망은, 학습 영상, 학습 영상 내 이벤트들의 종류와 발생시간이 포함된 이벤트 리스트, 및 학습 영상의 각 프레임의 시간 정보를 입력정보로 하고, 이 입력정보에 대응하는 학습 영상에서의 각 이벤트의 구간 정보들을 정답 데이터로 하여 구성한 학습 데이터세트를 입력받는 수단; 그리고, 상기 입력정보에 의해 발생하는 출력과 정답 데이터 간의 오차가 최소화되도록 학습 알고리즘을 활용하여 영상의 각 프레임에 대하여 이벤트 구간을 판단하는 과정을 반복하여 학습하는 수단을 포함한다.

이상의 각 특징들에서, 상기 학습 데이터세트의 정답 데이터는, 학습 영상 내의 이벤트 리스트의 각 이벤트에 대응하는 영상 시작 지점과 끝 지점의 구간을 태깅하여 준비할 수 있다.

또한, 상기 입력정보에 포함된 각 영상 프레임의 시간 정보는, 컴퓨터 비전에 의한 문자인식 알고리즘을 이용하여 화면 내의 문자를 인식하여 얻을 수 있다.

상기 학습 절차 또는 학습 수단 또는 신경망은, 학습 영상과 학습 데이터세트가 입력되어 영상 특징 추출 기능을 수행하는 컨벌루션 신경망(CNN)과, 이 컨벌루션 신경망에 연결되어 CNN에서 생성된 영상 특징 및 이전 시간 단계의 상태를 입력으로 받아서 영상 프레임 간의 시간적 문맥을 활용하여 영상의 이벤트 구간을 인덱싱하는 순환 신경망(RNN)을 포함하는 딥뉴럴네트워크로써 구현할 수 있다.

또한, 상기 학습 데이터세트를 입력받는 수단은 신경망의 입력층일 수 있다.

여기서, 상기 순환 신경망에는, 이벤트의 종류에 따라서 RNN이 다른 기준으로 구간을 인덱싱 할 수 있도록 하기 위하여 이벤트의 종류가 입력될 수 있다. 또한, 상기 학습 알고리즘으로는 오류역전파 기법을 사용할 수 있다.

한편 옵션으로서, 상기 학습 모듈에 입력되는 입력정보에는, 연속되는 이미지 간의 픽셀간 이동을 의미하는 옵티컬 플로우 정보가 추가로 포함될 수 있다.

이러한 구성을 갖는 본 발명은 단대단, 즉, 엔드투엔드 기반의 학습 모델 시스템으로서, 영상 종류에 무관하게 단일 형식의 데이터 세트를 사용하기 때문에 다양한 영상 유형에 범용적으로 사용할 수 있다. 또, 학습에 필요한 정답 세트 구축이 간편하기 때문에 새로운 유형이나 환경의 영상에 대해서도 확장성이 크다.

이상에서 소개한 본 발명의 과제해결 수단은 이하에서 도면과 함께 설명하는 구체적인 실시형태를 통하여 보다 더 명확해질 것이다.

영상 특징을 명시적으로 추출할 필요가 없으므로, 알고리즘 설계자가 각 스포츠 종목이나 환경에 맞추어서 적절한 영상 특징을 고안하기 위한 수고를 할 필요가 없다.

영상 특징 추출을 기존의 방법에 의한 학습 모듈로 구현한다면 많은 프레임에 대한 태깅 작업이 필요하지만, 본 발명에 따르면 영상 특징 추출만을 위한 학습 데이터 세트를 구축할 필요가 없다.

End-to-End 학습을 위해서 필요한 학습 데이터 세트가 영상 유형에 무관하게 동일한 포맷이기 때문에 각 유형을 학습하기 위한 데이터 세트만 준비되면 동일한 학습 모듈과 방법을 사용할 수 있기 때문에, 모든 유형의 영상에 범용적으로 적용가능하다.

통일된 데이터 세트 포맷을 사용하기 때문에, 다양한 영상 유형에 대한 데이터를 한꺼번에 학습시킨다면 하나의 학습된 모델이 여러 종목의 이벤트 인덱싱을 담당할 수 있다.

학습에 필요한 정답 세트 구축이 비교적 간단하기 때문에 새로운 유형이나 환경의 영상으로의 확장이 용이하다.

도 1은 종래의 영상 분석 모듈과 이벤트 구간 인덱싱 모듈의 간략 구성도
도 2는 본 발명에 따른 End-to-End 학습을 통한 스포츠 영상의 이벤트 구간 인덱싱 방법의 개념적 구성도
도 3은 도 2에 나타낸 영상 분석 모듈과 이벤트 구간 인덱싱 모듈이 통합된 학습 모듈을 딥뉴럴네트워크로 구현한 간략 구성도
도 4는 본 발명의 이해를 돕기 위하여 RNN의 상태 피드백을 시간 스텝 순으로 풀어서 표현한 도면

이하에서는 상술한 본 발명의 기술사상을 실시하기 위한 구체적인 실시형태를 설명한다. 이하의 실시형태에서는 목적 영상을 다양한 종목이 포함된 스포츠 영상을 예로 들었다. 단, 본 발명의 기술적 범위가 이하의 스포츠 영상에만 한정되는 것이 아님은 당연하다. 본 발명의 기술적 범위 내지는 권리 범위는 본 명세서에 첨부된 특허청구범위에 의해 결정되는 것이다.

먼저 본 발명의 이해를 위하여 종래의 방식에 대해서 도 1을 참조하여 간단하게 설명한다. 기존 방법에서는 각각의 스포츠 종목(도 1에서는 농구와 야구)마다 별도의 영상 분석 모듈(10, 10')과 이벤트 구간 인덱싱 모듈(12, 12')을 사용한다.

우선 영상 분석 모듈(10, 10')에서 이벤트 세그먼트를 하는 데에 필요한 영상 특징(feature)들을 컴퓨터 비전 기법을 이용하여 명시적으로 추출한다. 도 1에 각 영상 분석 모듈(10, 10')로부터 농구경기나 야구경기 분석을 위해 추출된 명시적 영상 특징 세트(11, 11')가 도시되어 있다. 여기에서 명시적 영상 특징들은 샷 분류, 리플레이(replay) 여부, 카메라 움직임 정보, 선수의 행동 정보와 같은 다양한 정보를 의미한다. 그 후, 이벤트 구간 인덱싱 모듈(12, 12')에서는, 상기 추출된 영상 특징(11, 11')을 바탕으로 자연스러운 이벤트 구간을 찾아내는 작업을 수행한다. 이를 돕기 위해 이벤트 리스트(13, 13')가 입력된다. 이상의 동작을 통해 이벤트 구간 인덱싱 모듈(12, 12')로부터 최종적으로 스포츠 영상 내의 각 이벤트별 구간(14, 14')이 얻어진다.

이와 같이 기존 방법에서는 각각의 스포츠 종목마다 별도의 영상 분석 모듈과 이벤트 구간 인덱싱 모듈을 사용해야 했다. 종목마다 이벤트 인덱싱에 도움이 되는 명시적 영상 특징의 종류가 다른데, 어떤 영상 특징들을 사용해야 할지 직접 고안해 내고 각 영상 특징 추출 모듈을 구현하는 데에 많은 노력이 필요하다. 같은 종목이더라도, 방송사나 촬영 환경 및 시기에 따라 영상 특징의 효과가 달라질 수도 있어서 애써 설계해 둔 영상 특징들이 쓸모 없어지기도 한다. 또한 영상 특징을 머신러닝 기반의 학습 모듈링 기반으로 구현할 경우에는 많은 프레임에 대한 영상정보 태깅(tagging)이 필요하고, 각 종목마다 다른 형태의 데이터 세트를 준비하여야 한다. 특히, 화면 구성이 다양한 스포츠의 경우에는(예를 들어, 야구), 세세한 영상 분석을 위해서 더욱 많은 노력이 필요할 수도 있다. 예를 들어 영상 특징으로서 샷 분류를 사용하는 경우에, 야구는 타석, 투구 동작, 내야, 외야, 관중석, 프런트 등, 다양한 카메라 샷이 존재하기 때문에 영상 분석 알고리즘이 복잡해지기 마련이다. 또한, 입력인 영상 특징의 종류가 다르기 때문에 이벤트 구간 인덱싱 모듈(12, 12') 또한 운동 종목마다 별도로 있어야 한다.

도 2는 본 발명에 따른 End-to-End 학습을 통한 스포츠 영상의 이벤트 구간 인덱싱 방법의 개념적 구성도이다.

본 발명에서는 기존의 영상 분석 모듈과 이벤트 구간 인덱싱 모듈이 통합된 하나의 학습 모듈(25)이 비명시적 영상 분석 및 이벤트 구간 인덱싱을 위한 하나의 모듈로서 구성된다. 기존 방법에서는 영상 특징들을 명시적으로(explicitly) 추출하였지만, 본 방법에서는 이 학습 모듈(25) 내에서 비명시적으로(implicitly) 영상 특징이 생성된다. 즉, 영상 특징들이 모듈 내부에서 자체적으로 생성되고 이용되긴 하지만 사용자가 직접적으로 추출하지는 않는다(이러한 점에서 비명시적 영상 특징 추출이라고 이름붙였다). 그리고 그러한 비명시적인 영상 특징들은 사람이 고안해 낼 필요 없이 학습(머신러닝)에 의해서 자동으로 설계된다. 머신러닝은 입력을 받아 출력을 내고, 그 오차를 계산한 뒤 이를 반영해 신경망의 각 층간의 연결강도를 업데이트 하는 과정을 계속 반복하는 과정이다.

학습 모듈(25)의 입력과 출력에 관해 설명한다. 학습 모듈(25)의 입력, 즉, 학습에 필요한 정보는 이벤트 리스트(21), 스포츠 영상(23), 각 영상 프레임의 시간 정보(24)이고, 출력은 스포츠 영상 내에서의 각 이벤트의 구간(26)이다.

이벤트 리스트(21)는 스포츠 영상에서 구간을 찾고자 하는 이벤트들의 목록을 의미한다. 이 정보는 문자 중계 데이터가 존재한다면 일괄적으로 수집할 수 있다. 문자 중계 데이터는 일정한 포맷을 가지고 있기에 규칙 기반으로써 쉽게 이벤트 리스트로 변환할 수 있으며, 이벤트가 발생한 시간 정보 또한 함께 얻을 수 있다. 문자 중계 데이터를 이벤트 리스트로 변환하는 작업은 공지의 기술이다. 이벤트 리스트는 아래 표 1과 같이 시간 정보, 이벤트 분류(종류), 부가 정보 항목으로 구성하였는데, 표 1은 농구 경기의 예에 대한 이벤트 리스트이다.

시간 정보	이벤트 분류(종류)	부가 정보
1쿼터 남은 시간 8:30	2점슛	A팀 선수 홍길동
1쿼터 남은 시간 8:17	리바운드	B팀 선수 임꺽정
1쿼터 남은 시간 7:59	파울	B팀 선수 장길산
1쿼터 남은 시간 7:40	퇴장	B팀 선수 장길산
...	...	...

여기서 '이벤트 분류'는 2점슛, 리바운드, 파울, 퇴장 등, 주요 사건으로서 기분류된 또는 분류하고자 할 이벤트이다. '시간 정보'는 이벤트와 스포츠 영상 내 프레임을 대략적으로 동기화시켜줄 수 있을 정도의 시간 정보를 의미하며, 반드시 절대시간일 필요는 없다. 예를 들어 축구경기에서의 경기 시간, 농구경기에서의 남은 라운드 시간, 야구경기에서 투수가 던진 투구수 같은 정보들이 시간정보에 주로 사용되고, 그 외에 점수, 라운드, 이닝 정보 등 영상에 나타나는 시간을 간접적으로 암시하는 정보들도 사용 가능하다. '부가 정보'는 이벤트 분류 외에 문자 중계 데이터에서 뽑을 수 있는 부가적인 시맨틱 정보들로, 이벤트 구간을 찾아낸 후 해당 구간에 대한 추가적인 정보를 제공해주는 용도로 사용할 수 있는데, 본 발명에서 필수적인 요소는 아니다.

입력 정보 중 스포츠영상(23)은 도 1에서와 같이 각 종목마다 별도의 영상들이 각 분석 모듈(10, 10')로 입력되지 않고, 종목에 무관하게 학습 모듈(25)로 입력된다.

마지막으로, 주어진 스포츠 영상에 대한 각 영상 프레임의 시간 정보(24)가 입력 정보에 포함된다. 이 정보는 컴퓨터 비전에 의한 문자인식, 즉, OCR(Optical Character Recognition) 알고리즘을 이용하여, 화면 내의 문자들을 인식하여 얻을 수 있다. OCR 알고리즘을 이용하여 문자를 인식하는 과정도 역시 공지의 기술이다. 따라서 영상 프레임에 대응하는 시간 정보(24)는 용이하게 추출할 수 있다. 물론, 어떤 프레임에서는 화면상에 시간 정보가 나타나지 않을 때도 있다. 또한 경기 중 쉬는 시간에는 시간이 멈추기도 한다. 아래 표 2는 농구 경기에서의 남은 시간을 공지의 OCR 알고리즘을 이용하여 추출한 예를 나타낸다. 각 영상 프레임에 대한 시간 정보를 예시하고 있으며, 시간 정보가 없는 영상 프레임도 있음을 볼 수 있다.

영상 프레임	시간 정보
3000~3029	1쿼터 남은 시간 10:57
3030~3059	1쿼터 남은 시간 10:56
3060~3127	1쿼터 남은 시간 10:55
3128~3334	시간 정보 없음
3335~3400	1쿼터 남은 시간 10:55
3401~3430	1쿼터 남은 시간 10:54
...	...

이상과 같은 입력 정보가 주어지면, 이벤트 리스트(21)와 영상 프레임의 시간 정보(24)를 바탕으로 대략적으로 영상 프레임에서의 이벤트 발생 지점을 추측할 수 있다. 하지만, 본 발명의 궁극적 목표는 단순히 이벤트 발생 지점을 아는 것에 그치지 않고, 시청자가 만족할 만한 품질로 해당 이벤트가 만들어지는 과정과 결과가 포함될 수 있도록, 이벤트의 시작 지점과 끝 지점을 인덱싱하는 것이다. 예를 들면, 농구에서 2점슛 이벤트가 있다면, 선수가 드리블을 시작해서 슛을 마치고 골 세레모니를 하는 모습까지 포함되어야 한다. 이러한 자연스러운 이벤트 구간 인덱싱을 하기 위해서는 영상 정보를 분석하여 적절한 절단 지점을 찾을 수 있어야 한다.

이러한 구조의 학습은 소위, 엔드투엔드(End-to-End) 방식의 학습으로 이루어지는데, 이때, 엔드투엔드 학습에 필요한 데이터는 앞에서 제시한 입력정보인 각 이벤트가 발생한 시간 정보와 이벤트 분류(그리고 필요에 따라서는 부가 정보)가 포함된 이벤트 리스트(21), 스포츠 영상(23), 각 영상 프레임의 시간 정보(24)와, 출력 정답 데이터인 스포츠 영상 내에서의 각 이벤트의 구간 데이터(26)이다.

이 때 출력 정답 데이터인 스포츠 영상 내에서의 각 이벤트 구간(26)은 사람이 직접 정답 세트를 구축하여야 하는데, 비교적 구축이 간단하고 모든 스포츠 종목에 대해 같은 형식으로 구축할 수 있기 때문에 스포츠 종목에 관계없이 동일한 하나의 학습 모듈(25)을 공유할 수 있다. 이와 같이 모든 스포츠 종목에 대하여 학습 모듈을 공유할 수 있기 때문에, 다양한 종목에 대해 학습을 시킴으로써 모든 종목에 대해 통합된 인덱싱 모듈을 개발할 수 있는 것이다. 또는 이와 다르게, 각 종목에 특화되도록 각 종목에 대한 데이터들로만 학습시킬 수도 있다. 더 구체적인 학습 방법은 조금 있다가 자세하게 설명한다.

본 발명에서는, 이상에서 설명한 엔드투엔드 학습 과정을 통해서 굳이 사람이 영상 특징을 직접적으로 고려할 필요가 없다. 다만, 주어진 입력 정보들과 출력 정답 세트만 공급해주면, 학습 모듈이 자체적으로 정답 세트에 근접할 수 있도록 학습하면서 내부에서 적절한 영상 특징을 설계하게 되는 것이다.

End-to-End 학습 모듈, 즉, 도 2에 나타낸 영상 분석 모듈과 이벤트 구간 인덱싱 모듈이 통합된 학습 모듈(25)은 딥뉴럴네트워크(Deep Neural Network)를 이용해 구현할 수 있다.

본 발명에서는 딥뉴럴네트워크(심층신경망)를 도 3과 같이 컨벌루션신경망(Convolutional Neural Network) CNN(31)과 순환신경망(Recurrent Neural Network) RNN(32)을 연결하여 구현하였다. 여기서 CNN(31)은 영상 특징을 추출하는 기능을 하고, RNN(32)은 이벤트 구간을 인덱싱 하는 역할을 한다. End-to-End 학습을 하면서 CNN(31)은 이벤트 구간을 나누는 데 적합한 영상 특징을 자동으로 설계하기 때문에, 영상 특징 설계를 사람이 직접 고려할 필요가 없는 큰 장점이 있다. RNN(32)은 CNN(31)에서 생성된 영상 특징 뿐만 아니라 이전 스텝의 상태를 입력으로 받기 때문에, 영상 프레임 간의 시간적 문맥을 활용할 수 있고, 이는 이벤트 구간을 추출하는 데 적합한 특성이다.

도 3의 딥뉴럴네트워크의 역할을 조금 더 정확히 설명하면, 상기 딥뉴럴네트워크는 한 번에 이벤트 리스트(21) 내의 이벤트 하나에 대한 영상 내 구간을 찾아낸다. CNN(31)의 입력으로는 전체 영상 프레임이 들어가는 것이 아니라, 찾고자 하는 이벤트 구간을 포함하는 영상 내 일부 구간이 들어간다. 이 딥뉴럴네트워크의 출력(34)에서는 입력으로 들어간 영상 프레임들에 대응하는 이진값(yes or no, 또는 1 or 0)들이 나오는데, 이는 대응하는 프레임이 찾고자 하는 이벤트 구간에 속하는지 여부를 의미한다. 보통의 경우의 출력은 000...000111...111000...000과 같은 형태로 나와서, 중간에 1에 대응하는 프레임들이 이벤트 구간이 된다. 출력에 노이즈가 생길 수도 있는데, 주변 값들을 바탕으로 보정하는 간단한 필터링 알고리즘을 후처리로 사용할 수 있다. 상기의 과정을 이벤트 리스트(21) 내의 모든 이벤트들에 대해서 반복적으로 수행하면, 영상 내의 모든 이벤트의 구간(26)을 인덱싱 할 수 있다.

본 발명에 따른 End-to-End 학습 모듈에서의 영상 프레임의 입력 방법에 대해서, 그리고 프레임별 이벤트를 판단하는 방법에 대해서 조금 더 자세하게 기술한다. 도 4를 참조한다.

농구 경기를 예로 들어, 표 1에 나타낸 것과 같은 이벤트 리스트에 있는 어느 2점슛에 대한 이벤트 구간을 찾는다고 가정하겠다. 앞에서 설명하였듯이, 해당 2점슛이 발생한 시점과 영상 각 프레임의 시간 정보를 알고 있으므로, 2점슛이 발생한 영상에서의 대략적인 시점 t1~t2를 찾아 낼 수 있다. 찾고자 하는 결과는 해당 시점 t1~t2 근처에 존재할 2점슛 이벤트의 자연스러운 시작점과 끝점이다. 예를 들면 선수가 드리블을 시작하는 위치가 시작점, 세레모니를 마치는 지점이 끝점이 될 수 있다. 이 때, 해당 End-to-End 모델에 들어가는 영상 입력은 얻고자 하는 이벤트 구간을 포함할 수 있도록 t1~t2보다 넓은 범위 (t1―d1)~(t2+d2)로 잡는다. 따라서 (t1―d1)~(t2+d2) 구간의 각 프레임이 시간 순서대로 딥뉴럴네트워크의 입력으로 들어가게 된다.

또한 이벤트의 종류(예를 들어, 2점슛) 'e'도 입력으로서 RNN에 전해지는데, 이벤트의 종류에 따라서 RNN이 다른 기준으로 구간을 인덱싱 할 수 있도록 하기 위함이다. 도 4에서 'e'는 이벤트의 종류를 인코딩한 것으로서, One-Hot 인코딩과 같이 간단한 변환을 거친 후에 RNN의 인풋으로 사용하였다. 영상 프레임이 전해지고 정해진 스텝(Δ)만큼 지연되어서 각 프레임이 이벤트 구간에 해당하는지 판단된 결과가 출력된다. 이 때 d1, d2, Δ는 사용자가 선택하는 파라미터로서 경기의 종류에 따라서 적당한 값을 정하면 된다.

도 4는 본 발명에 적용한 딥뉴럴네트워크의 구성도가 아니라, 이해를 돕기 위하여 RNN의 상태 피드백을 시간 스텝 순으로 풀어헤쳐서 표현한 것이다. 즉, 같은 파라미터를 가지는 CNN과 RNN 모듈들을 단순히 복사해서 표현하였을 뿐이다.

모델 학습 방법에 대하여 설명한다. 앞에서는 딥뉴럴네트워크가 어떻게 구성되고, 입력과 출력이 어떻게 이루어지는지에 대한 설명을 하였다. 이제, 상기와 같이 설계된 딥뉴럴네트워크를 어떻게 학습하는지를 설명한다. 학습 알고리즘은 보통의 뉴럴네트워크의 학습에 사용하는, 오류역전파 기법(back propagation)을 이용하면 된다. 이 때, 학습 데이터세트로는, 각 입력에 대응하는 출력 정답 세트를 준비하여야 한다. 정답 세트는 이벤트 리스트의 각 이벤트에 대응하는 입력 영상에서의 시작 지점과 끝 지점으로 사람이 직접 영상을 보고 적절한 구간을 태깅한 데이터이다. 예를 들면 아래의 표 3과 같이 구성된다.

이벤트 리스트	영상에서의 프레임 구간
이벤트 1	4020~5102
이벤트 2	6823~8912
이벤트 3	10451~11312
...	...

하나의 이벤트에 대해 영상에서의 두 개의 지점만 태깅하면 되는 작업이라 정답 세트를 구축하는 데에 큰 어려움은 없다. 입력과 정답 세트의 포맷이 종목에 상관없이 공통된 형식이므로 데이터만 별도로 준비하고 학습 모듈이나 방법에는 변경이 없는, 종목에 무관한 범용적인 모델인 것이다.

이상에서 본 발명의 특정 실시형태를 설명하였다. 그러나 이외의 다양한 변형이 가능함은 당업자에게 자명하다. 예를 들어, 앞에서 제시한 것과 같이 여러 종목의 데이터를 한꺼번에 학습시켜서 종목에 상관없이 이벤트 인덱싱을 할 수 있는 모듈로 만들 수 있지만, 그와 달리 한 종목의 데이터만을 학습시켜서 해당 종목에 특화된 모듈로 만들 수도 있다. 이 경우 새로운 종목이나 환경의 영상에 대한 확장이 필요하면, 해당 영상에 대한 데이터만을 추가적으로 준비하여 학습하면 된다.

또한 그 외에, 상술한 기본적인 실시형태에서 성능을 높히기 위해 튜닝을 할 수 있다. 가령, 기본 실시형태에서는 영상 프레임만을 입력으로 넣었는데, 연속되는 이미지 간의 픽셀 간의 이동을 의미하는 옵티컬 플로우(optical flow) 정보를 함께 입력으로 넣으면, 동작이나 카메라 이동 정보를 감안해서 더 나은 성능을 얻어 낼 수 있다.

Claims

엔드투엔드 기반의 학습 모듈을 이용하여 목적 영상 내의 이벤트 구간을 인덱싱하는 방법으로서,
학습 영상, 학습 영상 내 이벤트들의 종류와 발생시간이 포함된 이벤트 리스트, 및 학습 영상의 각 프레임의 시간 정보를 입력정보로 하고, 상기 입력정보에 대응하는 학습 영상에서의 각 이벤트의 구간 정보들을 정답 데이터로 하여 구성한 학습 데이터세트를 학습 모듈에 입력하여, 상기 입력정보에 의해 발생하는 출력과 정답 데이터 간의 오차가 최소화되도록 학습 알고리즘을 활용하여 영상의 각 프레임에 대하여, 이벤트 구간을 판단하는 과정을 반복하여 학습시키는 절차; 그리고
상기 학습 모듈에 목적 영상, 목적 영상 내 이벤트들의 종류와 발생시간이 포함된 이벤트 리스트, 및 목적 영상의 각 프레임의 시간 정보를 입력정보로서 입력하여 이 영상의 각 프레임이 이벤트 리스트 내의 각 이벤트 구간에 해당하는지 판단하는, 영상 내의 이벤트 구간을 인덱싱하는 절차를 포함하는, 영상 내 이벤트 구간 인덱싱 방법.
제1항에 있어서, 상기 학습 데이터세트의 정답 데이터는
이벤트 리스트의 각 이벤트에 대응하는 학습 영상 내의 시작 지점과 끝 지점의 구간이 태깅된 데이터인 것을 특징으로 하는, 영상 내 이벤트 구간 인덱싱 방법.
제1항에 있어서, 상기 학습 모듈의 입력정보에 포함된 각 영상 프레임의 시간 정보는,
컴퓨터 비전에 의한 문자인식 알고리즘을 이용하여, 화면 내의 문자를 인식하여 얻어지는 것을 특징으로 하는, 영상 내 이벤트 구간 인덱싱 방법.
제1항에 있어서, 상기 학습 절차 및 이벤트 구간 인덱싱 절차에서,
입력 영상에서 특징을 추출하는 기능을 수행하는 컨벌루션 신경망(CNN)과, 이 컨벌루션 신경망에 연결되어 CNN에서 생성된 영상 특징 및 이전 시간 단계의 상태를 입력으로 받아서 영상 프레임 간의 시간적 문맥을 활용하여 영상의 이벤트 구간을 인덱싱하는 순환 신경망(RNN)을 포함하는 딥뉴럴네트워크가 사용되는, 영상 내 이벤트 구간 인덱싱 방법.
제4항에 있어서, 상기 순환 신경망에,
이벤트의 종류에 따라서 RNN이 다른 기준으로 구간을 인덱싱 할 수 있도록 하기 위하여 이벤트의 종류가 입력되는 것을 특징으로 하는, 영상 내 이벤트 구간 인덱싱 방법.
제1항에 있어서, 상기 학습 알고리즘은 오류역전파 기법인 것을 특징으로 하는, 영상 내 이벤트 구간 인덱싱 방법.
제1항에 있어서, 상기 학습 모듈에 입력되는 입력정보에,
연속되는 이미지 간의 픽셀간 이동을 의미하는 옵티컬 플로우 정보가 추가로 포함되는, 영상 내 이벤트 구간 인덱싱 방법.
엔드투엔드 기반의 학습을 통하여 목적 영상 내의 이벤트 구간을 인덱싱하는 장치로서,
학습 영상, 학습 영상 내 이벤트들의 종류와 발생시간이 포함된 이벤트 리스트, 및 학습 영상의 각 프레임의 시간 정보를 입력정보로 하고, 상기 입력정보에 대응하는 학습 영상에서의 각 이벤트의 구간 정보들을 정답 데이터로 하여 구성한 학습 데이터세트를 입력받는 수단;
그리고 상기 입력정보에 의해 발생하는 출력과 정답 데이터 간의 오차가 최소화되도록 학습 알고리즘을 활용하여 영상의 각 프레임에 대하여, 이벤트 구간을 판단하는 과정을 반복하여 학습하고, 학습 후, 입력된 목적 영상의 각 프레임이 목적 영상 내 이벤트 리스트 내의 각 이벤트 구간에 해당하는지 판단하여 영상 내의 이벤트 구간을 인덱싱하는 수단을 포함하는, 영상 내 이벤트 구간 인덱싱 장치.
제8항에 있어서, 상기 학습 데이터세트의 정답 데이터는
이벤트 리스트의 각 이벤트에 대응하는 학습 영상 내의 시작 지점과 끝 지점의 구간이 태깅된 데이터인 것을 특징으로 하는, 영상 내 이벤트 구간 인덱싱 장치.
제8항에 있어서, 상기 입력정보에 포함된 각 영상 프레임의 시간 정보는,
컴퓨터 비전에 의한 문자인식 알고리즘을 이용하여, 화면 내의 문자를 인식하여 얻어지는 것을 특징으로 하는, 영상 내 이벤트 구간 인덱싱 장치.
제8항에 있어서, 상기 학습 데이터세트를 입력받는 수단은 신경망의 입력층인 것을 특징으로 하는, 영상 내 이벤트 구간 인덱싱 장치.
제8항에 있어서, 상기 학습 및 이벤트 구간 인덱싱 수단은,
영상 특징 추출 기능을 수행하는 컨벌루션 신경망(CNN)과, 이 컨벌루션 신경망에 연결되어 CNN에서 생성된 영상 특징 및 이전 시간 단계의 상태를 입력으로 받아서 영상 프레임 간의 시간적 문맥을 활용하여 영상의 이벤트 구간을 인덱싱하는 순환 신경망(RNN)을 포함하는 딥뉴럴네트워크인 것을 특징으로 하는, 영상 내 이벤트 구간 인덱싱 장치.
제12항에 있어서, 상기 순환 신경망에,
이벤트의 종류에 따라서 RNN이 다른 기준으로 구간을 인덱싱 할 수 있도록 하기 위하여 이벤트의 종류가 입력되는 것을 특징으로 하는, 영상 내 이벤트 구간 인덱싱 장치.
제8항에 있어서, 상기 학습 알고리즘은 오류역전파 기법인 것을 특징으로 하는, 영상 내 이벤트 구간 인덱싱 장치.
제8항에 있어서, 상기 입력정보에,
연속되는 이미지 간의 픽셀간 이동을 의미하는 옵티컬 플로우 정보가 추가로 포함되는, 영상 내 이벤트 구간 인덱싱 장치.
목적 영상 내의 이벤트 구간을 인덱싱하기 위하여 학습 알고리즘에 의한 학습을 수행하는 신경망으로서,
학습 영상, 학습 영상 내 이벤트들의 종류와 발생시간이 포함된 이벤트 리스트, 및 학습 영상의 각 프레임의 시간 정보를 입력정보로 하고, 상기 입력정보에 대응하는 학습 영상에서의 각 이벤트의 구간 정보들을 정답 데이터로 하여 구성한 학습 데이터세트를 입력받는 수단; 그리고
상기 입력정보에 의해 발생하는 출력과 정답 데이터 간의 오차가 최소화되도록 학습 알고리즘을 활용하여 영상의 각 프레임에 대하여, 이벤트 구간을 판단하는 과정을 반복하여 학습하는 수단을 포함하는, 엔드투엔드 기반 학습을 통하여 영상 내 이벤트 구간을 인덱싱하기 위한 신경망.
제16항에 있어서, 상기 학습 데이터세트를 입력받는 수단은 신경망의 입력층인 것을 특징으로 하는, 엔드투엔드 기반 학습을 통하여 영상 내 이벤트 구간을 인덱싱하기 위한 신경망.
제16항에 있어서, 상기 학습 수단은,
영상 특징 추출 기능을 수행하는 컨벌루션 신경망(CNN)과, 이 컨벌루션 신경망에 연결되어 CNN에서 생성된 영상 특징 및 이전 시간 단계의 상태를 입력으로 받아서 영상 프레임 간의 시간적 문맥을 활용하여 영상의 이벤트 구간을 인덱싱하는 순환 신경망(RNN)을 포함하는 딥뉴럴네트워크인 것을 특징으로 하는, 엔드투엔드 기반 학습을 통하여 영상 내 이벤트 구간을 인덱싱하기 위한 신경망.
제18항에 있어서, 상기 순환 신경망에,
이벤트의 종류에 따라서 RNN이 다른 기준으로 구간을 인덱싱 할 수 있도록 하기 위하여 이벤트의 종류가 입력되는 것을 특징으로 하는, 엔드투엔드 기반 학습을 통하여 영상 내 이벤트 구간을 인덱싱하기 위한 신경망.
제16항에 있어서, 상기 학습 알고리즘은 오류역전파 기법인 것을 특징으로 하는, 엔드투엔드 기반 학습을 통하여 영상 내 이벤트 구간을 인덱싱하기 위한 신경망.