KR20200010971A

KR20200010971A - 광학 흐름 추정을 이용한 이동체 검출 장치 및 방법

Info

Publication number: KR20200010971A
Application number: KR1020180125977A
Authority: KR
Inventors: 이지원; 남도원; 문성원; 이정수; 유원영; 윤기송
Original assignee: 한국전자통신연구원
Priority date: 2018-06-25
Filing date: 2018-10-22
Publication date: 2020-01-31

Abstract

복수의 프레임을 포함하는 영상 클립에 대한 광학 흐름을 추정하도록 훈련된 제1 심층신경망을 이용해, 입력된 영상 클립에 대한 광학 흐름을 추정하는 단계; 광학 흐름 추정 결과를 반영하는 광학 흐름 영상을 도출하는 단계; 상기 제1 심층신경망을 이용해 훈련된 제2 심층신경망을 이용해, 상기 광학 흐름 영상에 기반하여 상기 영상 클립 내 이동체를 검출하는 단계를 포함하는, 이동체 검출 방법이 개시된다.

Description

광학 흐름 추정을 이용한 이동체 검출 장치 및 방법{APPARATUS AND METHOD FOR DETECTING MOVING OBJECT USING OPTICAL FLOW PREDICTION}

본 발명은 광학 흐름 추정을 이용한 이동체 검출 장치 및 방법에 관한 것으로, 더욱 상세하게는 심층신경망을 이용해 영상의 광학 흐름을 추정하여 이동체를 검출하는 장치 및 방법에 관한 것이다.

세계 스포츠 영상 분석 시장은 영상 분석 기술 및 빅데이터 분석 기술의 발전으로 인해 IBM, Oracle corparation과 같은 기존 대형 기업뿐 아니라 SAP, SAS, OPTA 등과 같은 빅데이터 분석 전문업체의 성장이 두드러지고 있다. 이미 2014년 $125 Millions, 2017년에는 $4.7 Billions를 달성하였고, 2017-2021년간 56.66%의 CAGR(연평균 성장률)로 성장할 것으로 보인다.

스포츠 경기 영상의 분석 중에서도 영상 내 공을 검출하는 기술은 공을 추적하고 경기 내에서 발생하는 이벤트들을 인식하는 데 기초가 된다. 하지만, 일반적으로 높은 속도와 작은 크기, 그리고 잦은 가려짐과 같은 문제로 공을 효과적으로 검출하는 것은 상당히 어려운 문제이다.

경기 영상에서 공을 검출하기 위해 여러 기법들이 제안되었다. 우선, 영상에서 원형 모양을 찾을 수 있는 허프 변환(Hough transform)을 활용하는 방법이 있다. 이 방법은 원형의 공을 효과적으로 검출할 수 있으나, 고속으로 움직이는 공의 경우 공의 모양이 타원형으로 촬영되거나 반투명하게 촬영되는 경우가 있어 검출에 실패하는 경우가 많다. 또한 농구 경기와 같이 공의 색상이 배경 색상과 유사한 경우에도 외곽선을 활용하여 검출을 진행하는 이 방법은 많은 오류를 보인다.

다른 방법으로 필터를 사용하여 공을 검출하는 방법도 많이 사용되는데, 일반적으로 칼만 필터(Kalman filter) 또는 파티클 필터(Particle filter)를 이용하여 공의 후보를 추려낸 후 해당 후보 중 가장 공과 유사도가 높은 객체를 지속적으로 검출하는 방법이 사용된다. 이 방법 역시 위에서 제시한 방법과 유사하게 느리게 움직이는 공의 경우에는 그 정확도가 높으나 공의 속도가 높아지게 되면 검출에 실패하는 경우가 많아지게 된다.

추가적으로, 영상의 광학 흐름을 추정하여 객체의 움직임을 인식하는 기법이 있다. 이 방법은 동영상의 프레임간 차분을 이용하여 이전 프레임의 객체가 이후 프레임에서 위치한 곳이 어디인지를 추정하고 이 차이가 클수록 높은 광학 흐름값을 갖도록 연산된다. 이 방법은 움직이는 객체를 특정하고 움직임의 크기를 추정하는 데 효과적인 기법이다. 하지만 영상의 크기가 커질수록 연산량이 커지는 문제가 있어, 실용적으로 이 기법을 활용하기 위해서는 연산 속도 이슈를 해결하여야만 한다는 문제가 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 심층신경망을 이용해 영상의 광학 흐름을 추정하여 이동체를 검출하는 장치를 제공하는 데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은 심층신경망을 이용해 영상의 광학 흐름을 추정하여 이동체를 검출하는 방법을 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 이동체 검출 방법은, 복수의 프레임을 포함하는 영상 클립에 대한 광학 흐름을 추정하도록 훈련된 제1 심층신경망을 이용해, 입력된 영상 클립에 대한 광학 흐름을 추정하는 단계; 광학 흐름 추정 결과를 반영하는 광학 흐름 영상을 도출하는 단계; 및 상기 제1 심층신경망을 이용해 훈련된 제2 심층신경망을 이용해, 상기 광학 흐름 영상에 기반하여 상기 영상 클립 내 이동체를 검출하는 단계를 포함할 수 있다.

상기 영상 클립은 복수의 프레임으로 구성된 스포츠 영상 클립을 포함할 수 있으며, 상기 광학 흐름은 서로 직교하는 두 방향에서의 광학 흐름을 포함할 수 있다.

여기서, 상기 제1 심층신경망은, 예측된 광학 흐름과 연산된 실제 광학 흐름 간의 오차 값을 산출하고 산출된 오차 값을 역전파하며, 경사 하강법(gradient descent)을 통해 훈련될 수 있다.

또한, 상기 입력된 영상 클립에 대한 광학 흐름을 추정하는 단계는, 제1 심층신경망을 이용해, 복수의 프레임을 포함하는 제1 그룹 영상 및 상기 제1 그룹 영상 내 각 프레임에 시간적으로 바로 다음으로 후속하는 복수의 프레임을 포함하는 제2 그룹 영상 간의 차이를 이용해 광학 흐름을 예측하는 단계를 포함할 수 있다.

상기 제1 심층신경망은, 복수의 프레임을 포함하는 제1 그룹 영상 및 상기 제1 그룹 영상 내 각 프레임에 시간적으로 바로 다음으로 후속하는 복수의 프레임을 포함하는 제2 그룹 영상 간의 차이를 이용해 광학 흐름을 예측하는 단계; 예측된 광학 흐름과 실제 광학 흐름을 비교하여 오차 값을 산출하는 단계; 및 상기 오차 값을 역전파하고 경사하강법을 통해 광학 흐름 추정 심층신경망을 훈련하는 단계를 통해 훈련될 수 있다.

상기 제2 심층신경망은, 광학 흐름 영상 내에서 공의 존재 유무 또는 공의 위치를 레이블화하고, 상기 레이블을 상기 제2 심층신경망의 입력으로 활용하여 훈련될 수 있다.

상기 제1 심층신경망은 상기 제1 심층심경망에 적용할 손실함수를 목표 함수로 하여 상기 목표 함수가 최소 값을 갖도록 학습될 수 있다.

상기 제2 심층신경망은, 상기 제2 심층심경망에 적용할 손실함수를 목표 함수로 하여 상기 목표 함수가 최소 값을 갖도록 학습될 수 있다.

상기 제1 심층신경망은 또한, 상기 제1 심층신경망 내부의 적어도 하나의 은닉층의 정점들 간의 연결선에 대한 가중치를 학습하여 형성될 수 있다.

상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 이동체 검출 장치는, 프로세서; 및 상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함하고, 상기 적어도 하나의 명령은, 복수의 프레임을 포함하는 영상 클립에 대한 광학 흐름을 추정하도록 훈련된 제1 심층신경망을 이용해, 입력된 영상 클립에 대한 광학 흐름을 추정하도록 하는 명령; 광학 흐름 추정 결과를 반영하는 광학 흐름 영상을 도출하도록 하는 명령; 및 상기 제1 심층신경망을 이용해 훈련된 제2 심층신경망을 이용해, 상기 광학 흐름 영상에 기반하여 상기 영상 클립 내 이동체를 검출하도록 하는 명령을 포함할 수 있다.

상기 입력된 영상 클립에 대한 광학 흐름을 추정하도록 하는 명령은, 제1 심층신경망을 이용해, 복수의 프레임을 포함하는 제1 그룹 영상 및 상기 제1 그룹 영상 내 각 프레임에 시간적으로 바로 다음으로 후속하는 복수의 프레임을 포함하는 제2 그룹 영상 간의 차이를 이용해 광학 흐름을 예측하도록 하는 명령을 포함할 수 있다.

상기와 같은 본 발명의 실시예들은 광학 흐름을 사용하는 방법을 이용하여 공 인식을 시도하되, 광학 흐름을 그대로 연산하여 사용하지 않고, 심층신경망을 이용하여 광학 흐름을 추정할 수 있도록 학습 과정을 거친 후, 학습된 심층신경망을 통해 추정된 광학 흐름으로부터 공을 인식함으로써, 광학 흐름을 고속으로 추정할 수 있고 그에 따라 신속하고 정확한 공 인식이 가능하다.

본 발명은 특히, 고속으로 회전 이동하는 객체와 연관되는 스포츠 영상 분석에 매우 효과적으로 활용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 이동체 검출 장치의 개념적인 블록 구성도이다.
도 2는 본 발명에 적용되는 심층신경망의 개념적 구조도이다.
도 3은 본 발명의 일 실시예에 따른 광학흐름 추정 심층신경망의 구성을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 광학흐름 추정 심층신경망의 입력 및 출력을 나타낸 도면이다.
도 5는 본 발명에 따른 광학흐름 영상의 일 예를 나타낸다.
도 6은 본 발명의 일 실시예에 따른 공 검출 심층신경망의 구성을 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 학습을 위한 공 검출 심층신경망의 입력 및 출력을 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 이동체 검출 방법의 동작 순서도이다.
도 9는 본 발명의 일 실시예에 따른 이동체 검출 장치의 블록 구성도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명에서는 카메라로 촬영된 공을 이용하는 스포츠 경기 영상으로부터 공의 존재 유무 혹은 위치를 찾는 것을 목적으로 한다. 여기서, 공을 이용하는 스포츠 경기라 함을 축구, 농구, 야구 등과 같은 공을 이용하여 플레이되는 스포츠를 의미할 수 있다. 스포츠 경기에서 공은 주로 고속으로 이동하며 회전 운동을 동반하는 것이 통상적이다. 따라서, 본 명세서에서 용어 "공"은 이동체, 고속 이동체, 회전 이동체, 고속 회전이동체 등의 용어와 혼용될 수 있다.

한편, 앞서 살펴본 바와 같이, 종래 공 인식 기술이 가진 문제점은 공이 빠르게 움직이는 경우에 대한 인식 및 사후 대처가 힘들고, 공의 색상이 배경 색상과 유사한 경우 인식률 저하가 있다는 점이다.

이는 종래 공 인식 기술이 영상 내 공의 모양이나 색상, 크기 특징에 기반하여 인식을 시도하기 때문에 필연적으로 발생하는 문제로, 공의 속도나 이동 방향이 다양하게 변화하는 스포츠 경기 영상으로부터 공을 정확히 인식하는 것을 어렵게 한다. 이런 문제를 일부 해결하기 위해, 기존에는 레이더와 같은 센서 장비를 동시에 사용하는 형태로 공을 인식하는 방법도 사용하였으나, 이 방법은 센서 장비의 크기나 이동 용이성 문제로 인하여 이를 사용할 수 있는 스포츠 종류가 제한된다는 문제가 있었다. 즉, 해당 방법은 공의 시작점이나 종료 지점이 명확하게 정해진 야구나 골프와 같은 스포츠로 제한적으로 적용 가능하였다.

이를 극복하기 위한 방안으로 본 발명에서는, 속도가 빠르게 움직이는 객체를 정확하게 인식하기 위해 광학 흐름을 이용하고자 한다. 이 방법은 공이 빠르게 움직이는 경우나, 공의 색상이 배경 색상과 유사한 경우에도 상대적으로 매우 안정적으로 관심 객체를 특정할 수 있다는 장점이 있다. 하지만, 영상에서 광학 흐름을 계산하는 것은 매우 큰 연산량을 필요로 하므로 공 인식 속도와 관련된 성능이 저하된다는 단점을 갖는다.

따라서, 본 발명에서는 광학 흐름을 사용하는 방법을 이용하여 공 인식을 시도하되, 광학 흐름을 그대로 연산하여 사용하지 않고, 심층신경망을 이용하여 광학 흐름을 추정할 수 있도록 학습 과정을 거친 후, 학습된 심층신경망을 통해 추정된 광학 흐름으로부터 공을 인식하는 방법을 제안한다. 이렇게 함으로써 종래 기술의 문제점을 해결함과 동시에 광학 흐름을 고속으로 추정할 수 있어 빠르고 정확한 공 인식이 가능하다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 이동체 검출 장치의 개념적인 블록 구성도이다.

즉, 도 1은 본 발명의 일 실시예에 따라 스포츠 경기 영상으로부터 공을 인식하는 이동체 검출 장치의 개념도이다. 본 발명의 일 실시예에 따른 이동체 검출 장치는 광학흐름 추정 심층신경망(100) 및 공 검출 심층신경망(200)을 포함할 수 있다. 본 명세서에서 광학흐름 추정 심층신경망(100)은 제1 심층신경망으로, 공 검출 심층신경망(200)은 제2 심층신경망으로 지칭될 수 있다.

광학흐름 추정 심층신경망(100)은 입력된 스포츠 경기 영상 내에서 움직이는 객체의 움직임 방향과 크기를 의미하는 광학 흐름(optical flow)을 고속으로 추정할 수 있다. 공 검출 심층신경망(200)은 추정된 광학 흐름에 기반하여 도출된 스포츠 영상 내에서 공 객체를 검출할 수 있다.

도 2는 본 발명에 적용되는 심층신경망의 개념적 구조도이다.

심층신경망(Deep Neural Network)은 입력층(input layer)과 출력층(output layer) 사이에 다중의 은닉층(hidden layer)을 포함하는 인공 신경망(ANN: Artificial Neural Network)이다. 인공 신경망은 기초 컴퓨팅 단위인 뉴런 여러 개가 가중된 링크(weighted link)로 연결된 형태로, 하드웨어로 구현될 수도 있으나, 주로 컴퓨터 소프트웨어로 구현된다.

심층신경망은 도 2에 도시된 바와 같이 다중의 은닉층을 포함하여 다양한 비선형적 관계를 학습할 수 있다. 본 발명의 일 실시예에서는 이러한 다중 은닉층을 포함하는 심층신경망을 이용해 이동체의 광학 흐름을 고속으로 추정하기 위한 학습을 수행할 수 있다.

심층신경망은 알고리즘에 따라 비지도 학습 방법(unsupervised learning)을 기반으로 하는 심층 신뢰 신경망(DBN: Deep Belief Network), 심층 오토인코더(deep autoencoder) 등이 있고, 이미지와 같은 2차원 데이터 처리를 위한 합성곱 신경망(CNN: Convolutional Neural Network), 시계열 데이터 처리를 위한 순환 신경망(RNN: Recurrent Neural Network) 등이 있다.

본 발명의 일 실시예에서는 합성곱 신경망을 이용하는 신층신경망을 이용해 스포츠 영상에서 이동체를 검출한다.

본 발명은 두 개의 심층신경망을 활용하여 영상 클립을 분류한다. 본 발명은첫번째 심층신경망인 광학흐름 추정 심층신경망을 훈련시킨 후, 훈련된 첫번째 심층신경망을 활용하여 두번째 심층신경망인 공 검출 심층신경망을 훈련한다. 두 개의 심층신경망을 훈련하는 과정은 아래에서 상세히 설명될 것이다.

도 3은 본 발명의 일 실시예에 따른 광학흐름 추정 심층신경망의 구성을 나타낸 도면이다.

도 3을 참조하면, conv*, 즉 conv1, conv2, conv1, conv3, conv4는 컨볼루셔널 각 레이어(Convolutional layer)의 명칭이고, deconv*, 즉 deconv1, deconv2, deconv3, deconv4는 각 디컨볼루셔널 레이어(Deconvolutional layer)의 명칭이다. 또한, catconv*(예를 들어, catconv3, catconv4)는 텐서 채널 연결 레이어(Tensor channel concatenation layer) 및 컨볼루셔널 레이어의 결합을 나타내며, output layer *(예를 들어, output layer 1, output layer 2, output layer 3)는 아웃풋 레이어(output layer)를 나타낸다.

여기서, 커널(Kernel)은 이미지의 특징을 찾아내기 위한 공용 파라미터로 필터라고 칭해지기도 한다. 커널 사이즈는 일반적으로7 x 7, 5 x 5, 3 x 3 등과 같은 정사각 행렬로 정의될 수 있다. 신경망의 학습 대상은 커널 파라미터로서, 신경망은 입력 데이터에 대해 지정된 간격으로 순회하며 필터와 입력 간의 합성곱의 합을 산출하여 특징 맵(Feature Map)을 도출하는 방식으로 동작한다. 즉, 커널은 입력 데이터를 지정된 간격으로 순회하며 입력 데이터와의 합성곱을 계산하는데, 여기서 커널을 순회하는 간격을 스트라이드(Stride)라고 한다.

한편, 컨볼루션 레이어에서 커널과 스트라이드의 작용으로 Feature Map 크기는 입력데이터 보다 작을 수 있다. 이때, 컨볼루션 레이어의 출력 데이터가 줄어드는 것을 방지하는 방법이 패딩이다. 패딩은 입력 데이터의 외각에 지정된 픽셀만큼 특정 값으로 채워 넣는 것을 의미하며, 보통 패딩 값으로 0으로 채워 넣는다. 패드 사이즈는 패딩해야 할 픽셀 또는 영역의 크기를 의미할 수 있다.

한편, 각 컨볼루셔널 레이어(convolutional layer)의 비선형 함수(non-linearity function)로는 LeakyReLU(slope=0.1)를 사용할 수 있다.

도 3에 도시된 광학흐름 추정 심층신경망 구성은 일 실시예일뿐이며, 본 발명에 따른 광학흐름 추정 심층신경망 구성이 이에 한정되는 것은 아니다. 도 3에 도시된 바와 같이 설계된 심층신경망을 기반으로, 입력 영상 및 이에 대한 실제 광학 흐름 결과를 토대로 신경망 내부의 은닉층(hidden layer)의 정점(node, vertex)들 간의 연결선(edge)에 대한 가중치(weight)를 학습시킨다. 이러한 과정을 통해 학습된 심층신경망은 실제로 광학 흐름을 계산하는 것보다 고속으로 실제 광학 흐름과 유사한 광학 흐름을 추정할 수 있게 된다.

도 4는 본 발명의 일 실시예에 따른 광학흐름 추정 심층신경망의 입력 및 출력을 나타낸 도면이다.

도 4를 참조하여 광학흐름 추정 심층신경망의 훈련 방법을 설명한다.

입력된 영상 클립으로부터 광학 흐름을 예측하기 위해 본 발명의 일 실시예에 따른 광학흐름 추정 심층신경망(100)은 복수 개, 예를 들어, T 개의 프레임을 포함하는 스포츠 영상 클립을 입력으로 수신한다.

광학흐름 추정 심층신경망(100)은 예를 들어, [0, T-1]의 프레임을 갖는 입력 영상 클립을 두 그룹으로 분류한다. 한 그룹은 프레임 0부터 프레임 (T-2)까지의 집합으로 제1 그룹 영상으로 칭할 수 있다. 다른 그룹은 프레임 1부터 프레임 (T-1)까지의 집합으로 제2 그룹 영상으로 칭할 수 있다.

광학흐름 추정 심층신경망은 제1 그룹 영상 및 제2 그룹 영상을 이용해 x축, y축 방향으로 각각 광학 흐름을 생성한다. 다시 말해, 제1 프레임에 시간적으로 후속하여 제2 프레임이, 제2 프레임에 시간적으로 후속하여 제3 프레임이 배치되는 구조라고 할 때, 제1 그룹 영상 대비 제2 그룹 영상의 변화치를 기반으로 해당 영상의 광학 흐름을 예측할 수 있다. 따라서, T 개의 프레임을 포함하는 영상 클립을 입력으로 가질 때, 광학 흐름 추정 심층신경망의 출력은 (T-1) 개의 프레임을 갖는 광학 흐름 영상이 될 수 있다.

본 발명의 일 실시예에 따르면, 예측한 광학 흐름과 연산된 실제 광학 흐름을 비교하여 오차 값을 구하고, 그 오차 값을 역전파(back propagation)하여 경사 하강법(gradient descent)을 통해 광학흐름 추정 심층신경망을 훈련할 수 있다.

이때, 오차 값을 계산하는 수식을 손실 함수(Loss function)이라 하고, 아래 수학식 1에 따라 정의될 수 있다.

수학식 1에서 L_pix (k)는 픽셀에서의 손실함수로서, 예측한 광학 흐름을 기초로 다음 프레임을 사용해 복원한 영상

과, 원본 영상(

) 간 모든 픽셀에 대한 차분 평균을 의미할 수 있다. 여기서, k는 제1 심층 신경망에서 얻은 광학 흐름들의 색인으로, k∈{1,2,3}일 수 있다.

L_s (k)는 광학 흐름의 평탄 조건(Smoothness constraint)에서의 손실함수이다. 즉, L_s(k)가 작을수록 주변 픽셀 값들과의 차분 변화량이 작음을 의미할 수 있다.

한편, L_ssim (k)은 복원한 영상과 원본 영상의 구조적 유사도 (SSIM) 값을 크게 하기 위한 항으로, SSIM 값은 최대치가 1이고 SSIM 값이 클수록 구조적으로 유사함을 의미한다. 여기서, SSIM()은 표준 구조 유사도 함수(Standard structural similarity function)이다.

L₁(k)는 색인 k에 대해 광학 흐름 예측에 적용할, 앞서 설명할 손실(loss)들의 가중합을 나타낸다. 최종적으로, L₁은 전체 네트워크에 적용할, 각 광학 흐름 예측으로부터 구한 전체 손실을 의미한다. 즉, L₁은 제1 심층 신경망의 목표 함수(objective function)로서, 본 발명에 따른 이동체 검출 방법에서는 L₁ 값이 최소가 되도록 제1 심층 신경망을 학습하여 사용할 수 있다.

한편, f(x)는 샤보니에 패널티(Charbonnier penalty)이고, λ₁, λ₂, ε는 임의의 상수이다.

여기서,

는 광학흐름 추정 심층신경망의 출력 레이어 k를 통해 구한 x방향 광학 흐름이고,

는 광학흐름 추정 심층신경망의 출력 레이어 k를 통해 산출한 y방향 광학 흐름이다.

복수의 스포츠 영상 클립을 입력으로 수신한 광학흐름 추정 심층신경망(100)은 그 처리 또는 예측 결과로 광학 흐름을 출력한다.

도 4의 실시예를 통해 설명된 광학 흐름 심층신경망은 동일한 하드웨어 성능을 갖는 기기에서 수행된 실험에서 아래 표 1과 같은 추론 속도를 나타냈다. 이러한 수치는 기존 광학 흐름 연산 방법을 사용하는 경우에 비해 그 속도 성능이 10배 가량 향상된 것이다.

구분	추론 시간(Inference time)(ms)
CPU	22.7/frame
네트워크	2.28/frame

해당 실험은 CPU 로 Intel® Core^TM i7-8700K CPU @ 3.70GHz를 및 GPU로 NVIDIA TITAN Xp 를 사용하여 수행되었다. 여기서, 다른 형태로 구성된 광학흐름 추정 심층신경망을 활용할 경우 상기 속도는 더 늘어나거나 줄어들 수 있다.

도 5는 본 발명에 따른 광학흐름 영상의 일 예를 나타낸다.

도 5를 참조하면, 영상 51 및 영상 52는 실제 실험에서 입력 영상 중 프레임 0에 해당하는 영상(51) 및 프레임 1(52)이다. 광학 흐름 추정을 통해 도출된 두 영상 간의 광학 흐름 영상이 도 5에 도시된 5000 영상이다. 5000 영상은 광학 흐름을 나타내는 영상으로 색채 값을 가지지 않으며 휘도(luminance) 값만을 가질 수 있다. 5000 영상은 이후에서 살펴볼 공검출 심층신경망의 입력으로 제공된다.

도 6은 본 발명의 일 실시예에 따른 공 검출 심층신경망의 구성을 나타낸 도면이다.

도 6을 참조하면, conv*, 즉 conv1, conv2, conv1, conv3, conv4는 컨볼루셔널 각 레이어(Convolutional layer)의 명칭이고, fc* (예를 들어, fc7)는 완전히 연결된 레이어(Fully connected layer)를 나타낸다. 또한, 소프트맥스(softmax)는 소프트맥스 레이어(Softmax layer), 즉 네트워크의 출력(Output of the network)을 나타낸다. 또한, C는 레이블의 개수를 나타내고, 각 컨볼루션 레이어(convolutional layer)의 비선형 함수(non-linearity function)로는 LeakyReLU(slope=0.1)를 사용할 수 있다.

여기서, 소프트맥스 함수는 입력 값을 0~1 사이의 출력 값으로 모두 정규화하며, 출력 값들의 총합은 항상 1이 되는 특성을 가진 함수이다. 심층신경망에서는 소프트맥스 함수를 이용해 분류하고 싶은 클래스의 개수만큼을 출력으로 구성할 수 있고, 가장 큰 출력 값을 부여받은 클래스가 확률이 가장 높은 것으로 이용될 수 있다.

도 6에 도시된 공 검출 심층신경망 구성은 일 실시예일뿐이며, 본 발명에 따른 공 검출 심층신경망 구성이 이에 한정되는 것은 아니다. 설계된 공 검출 심층신경망을 토대로, 예를 들어, 광학 흐름 영상과 해당 광학 흐름 영상 내에서 공의 존재 유무 혹은 위치를 레이블화하여 공 검출 심층신경망의 입력으로 활용하는 방식으로 공 검출 심층신경망을 학습시킨다.

도 7은 본 발명의 일 실시예에 따른 학습을 위한 공 검출 심층신경망의 입력 및 출력을 나타낸 도면이다.

도 7을 참조하여 공 검출 심층신경망의 학습 과정을 설명한다.

먼저 T 개의 프레임으로 이루어진 영상 클립과 그에 대응하는 레이블을 로드한다. 해당 영상 클립에 대해 도 4를 통해 설명된 바와 같은 훈련을 마친 광학흐름 추정 심층신경망을 이용해 광학 흐름 영상을 생성한다. 공 검출 심층신경망(200)은 생성된 광학 흐름 영상을 입력으로 수신하여 해당 광학 흐름의 레이블을 출력하도록 디자인되어 있으며, 역전파를 통해 학습을 수행한다. 여기서, 역전파는 아래 수학식 2에 따라 표현될 수 있다.

수학식 2에서 L₂는 본 발명에 따른 제2 심층신경망에 적용할 손실 함수이며, 제2 심층 신경망의 목표 함수(objective function)이다.

는 크로스-엔트로피 함수(Cross-entropy function)이고, 아래 수학식 3과 같이 표현될 수 있다. 또한,

는

,

를 입력으로 받아 공 검출 심층 신경망을 통해 분류한 레이블이고,

는 기저값이 레이블링된 데이터이다.

본 발명에 따른 공 검출을 위한 심층신경망은 도 6의 실시예에 따라 수행되는 것으로 설명되었으나, 본 발명에 따른 심층신경망의 구성이 해당 구성에 한정되는 것은 아니다. 즉, 심층신경만의 구성이 도 6에 도시된 실시예와 다르거나 심층신경망이 아닌 특징 추출 기법 등의 다른 방법을 활용하여 광학흐름 추정 영상으로부터 공 검출을 수행할 수도 있다.

도 8은 본 발명의 일 실시예에 따른 이동체 검출 방법의 동작 순서도이다.

본 발명의 일 실시예에 따른 이동체 검출 방법은 크게, 심층신경망을 훈련하는 과정(S810) 및 훈련된 심층신경망을 활용해 이동체를 검출하는 과정(S820)을 포함할 수 있다. 심층신경망을 훈련하는 과정과 이동체를 검출하는 과정은 시간적으로 상당한 간격을 두고 발생하는 것이 일반적이라 할 것이며, 이동체를 검출에는 훈련된 심층신경망이 활용된다는 점에서, 심층신경망의 훈련 과정은 이동체를 검출하는 과정 전에 이루어지는 것이 바람직하다.

심층신경망을 훈련하는 과정(S810)은 제1 심층신경망을 훈련하는 단계(S811), 제1 심층신경망이 출력하는 광학흐름 영상을 이용해 제2 심층신경망을 훈련하는 단계(S812)를 포함할 수 있다.

여기서, 제1 심층신경망을 훈련하는 단계(S811)는, 복수의 프레임을 포함하는 제1 그룹 영상 및 상기 제1 그룹 영상 내 각 프레임에 시간적으로 바로 다음으로 후속하는 복수의 프레임을 포함하는 제2 그룹 영상 간의 차이를 이용해 광학 흐름을 예측하는 단계를 포함할 수 있다.

제1 심층신경망을 훈련하는 단계(S811)는, 복수의 프레임을 포함하는 제1 그룹 영상 및 상기 제1 그룹 영상 내 각 프레임에 시간적으로 바로 다음으로 후속하는 복수의 프레임을 포함하는 제2 그룹 영상 간의 차이를 이용해 광학 흐름을 예측하는 단계; 예측된 광학 흐름과 실제 광학 흐름을 비교하여 오차 값을 산출하는 단계; 상기 오차 값을 역전파하고 경사하강법을 통해 광학 흐름 추정 심층신경망을 훈련하는 단계를 포함할 수 있다.

훈련된 심층신경망을 활용해 이동체를 검출하는 과정(S820)은 입력되는 영상 클립에 대해(S821), 훈련된 제1 심층신경망을 이용해 광학 흐름 영상을 도출하고(S822), 훈련된 제2 심층신경망을 이용해 광학 흐름 영상으로부터 이동체를 검출하는 단계(S823)를 거쳐 수행된다.

도 9는 본 발명의 일 실시예에 따른 이동체 검출 장치의 블록 구성도이다.

본 발명의 일 실시예에 따른 장치는 프로세서(910) 및 프로세서를 통해 실행되는 적어도 하나의 명령 및 명령 수행의 결과를 저장하는 메모리(920)를 포함할 수 있다. 본 발명의 일 실시예에 따른 이동체 검출 장치는 또한, 심층신경망 활용의 특성인 병렬처리 과정으로 인해, 프로세서(910) 외에 그래픽 가속기(Graphics Processing Unit; GPU)(930)를 더 포함할 수 있다.

여기서, 적어도 하나의 명령은, 복수의 프레임을 포함하는 영상 클립에 대한 광학 흐름을 추정하도록 훈련된 제1 심층신경망을 이용해, 입력된 영상 클립에 대한 광학 흐름을 추정하도록 하는 명령; 및 광학 흐름 추정 결과를 반영하는 광학 흐름 영상을 도출하도록 하는 명령; 상기 제1 심층신경망을 이용해 훈련된 제2 심층신경망을 이용해, 상기 광학 흐름 영상에 기반하여 상기 영상 클립 내 이동체를 검출하도록 하는 명령을 포함할 수 있다.

상기 영상 클립은 복수의 프레임으로 구성된 스포츠 영상 클립을 포함할 수 있다.

상기 광학 흐름은 서로 직교하는 두 방향(예를 들어, x, y)에서의 광학 흐름을 포함할 수 있다.

상기 제1 심층신경망은, 예측된 광학 흐름과 연산된 실제 광학 흐름 간의 오차 값을 산출하고 산출된 오차 값을 역전파하며, 경사 하강법(gradient descent)을 통해 훈련될 수 있다.

상기 입력된 영상 클립에 대한 광학 흐름을 추정하는 단계는, 제1 심층신경망을 이용해, 복수의 프레임을 포함하는 제1 그룹 영상 및 상기 제1 그룹 영상 내 각 프레임에 시간적으로 바로 다음으로 후속하는 복수의 프레임을 포함하는 제2 그룹 영상 간의 차이를 이용해 광학 흐름을 예측하는 단계를 포함할 수 있다.

상기 제1 심층신경망은, 복수의 프레임을 포함하는 제1 그룹 영상 및 상기 제1 그룹 영상 내 각 프레임에 시간적으로 바로 다음으로 후속하는 복수의 프레임을 포함하는 제2 그룹 영상 간의 차이를 이용해 광학 흐름을 예측하는 단계; 예측된 광학 흐름과 실제 광학 흐름을 비교하여 오차 값을 산출하는 단계; 상기 오차 값을 역전파하고 경사하강법을 통해 광학 흐름 추정 심층신경망을 훈련하는 단계를 통해 훈련될 수 있다.

상기 제2 심층신경망은, 광학 흐름 영상 내에서 공의 존재 유무 또는 공의 위치를 레이블화하고, 상기 레이블을 상기 제2 심층신경망의 입력으로 활용하여 학습될 수 있다.

상기 실시예를 통해 설명된 본 발명은 스포츠 영상을 직접 분석하여 공을 찾아내는 기존 기술과는 달리 심층신경망을 이용하여 영상의 광학 흐름을 고속으로 추정하고 이를 활용하여 공을 검출한다. 검출 과정에서 중간 산출물로 광학흐름 추정 데이터가 도출되며, 이 때 도출되는 데이터는 심층신경망을 통해 생성되므로 실제 광학 흐름 계산식을 통해 연산된 결과와 유사할 수 있다.

본 발명에 따른 이동체 검출 장치는, 영상 처리 장치를 포함하거나 영상 처리 장치 내에 포함될 수 있다. 여기서, 영상 처리 장치는 개인용 컴퓨터(PC: Personal Computer), 노트북 컴퓨터, 개인 휴대 단말기(PDA: Personal Digital Assistant), 휴대형 멀티미디어 플레이어(PMP: Portable Multimedia Player), 플레이스테이션 포터블(PSP: PlayStation Portable), 무선 통신 단말기(Wireless Communication Terminal), 스마트폰(Smart Phone), TV 응용 서버와 서비스 서버 등 서버 단말기일 수 있으며, 각종 기기 또 등과 같은 사용자 단말기이거나 유무선 통신망과 통신을 수행하기 위한 통신 모뎀 등의 통신 장치, 이동체를 검출하기 위한 각종 프로그램과 데이터를 저장하기 위한 메모리, 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비하는 다양한 장치를 의미할 수 있다.

본 발명의 실시예에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.

또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.

실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.

이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 광학흐름 추정 심층신경망 200: 공 검출 심층신경망
910: 프로세서 920: 메모리
930: 그래픽 프로세서

Claims

복수의 프레임을 포함하는 영상 클립에 대한 광학 흐름을 추정하도록 훈련된 제1 심층신경망을 이용해, 입력된 영상 클립에 대한 광학 흐름을 추정하는 단계;
광학 흐름 추정 결과를 반영하는 광학 흐름 영상을 도출하는 단계; 및
상기 제1 심층신경망을 이용해 훈련된 제2 심층신경망을 이용해, 상기 광학 흐름 영상에 기반하여 상기 영상 클립 내 이동체를 검출하는 단계를 포함하는, 이동체 검출 방법.
청구항 1에 있어서,
상기 영상 클립은 복수의 프레임으로 구성된 스포츠 영상 클립을 포함하는, 이동체 검출 방법.
청구항 1에 있어서,
상기 광학 흐름은 서로 직교하는 두 방향에서의 광학 흐름을 포함하는, 이동체 검출 방법.
청구항 1에 있어서,
상기 제1 심층신경망은,
예측된 광학 흐름과 연산된 실제 광학 흐름 간의 오차 값을 산출하고 산출된 오차 값을 역전파하며, 경사 하강법(gradient descent)을 통해 훈련된, 이동체 검출 방법.
청구항 1에 있어서,
상기 입력된 영상 클립에 대한 광학 흐름을 추정하는 단계는,
제1 심층신경망을 이용해, 복수의 프레임을 포함하는 제1 그룹 영상 및 상기 제1 그룹 영상 내 각 프레임에 시간적으로 바로 다음으로 후속하는 복수의 프레임을 포함하는 제2 그룹 영상 간의 차이를 이용해 광학 흐름을 예측하는 단계를 포함하는, 이동체 검출 방법.
청구항 1에 있어서,
상기 제1 심층신경망은,
복수의 프레임을 포함하는 제1 그룹 영상 및 상기 제1 그룹 영상 내 각 프레임에 시간적으로 바로 다음으로 후속하는 복수의 프레임을 포함하는 제2 그룹 영상 간의 차이를 이용해 광학 흐름을 예측하는 단계;
예측된 광학 흐름과 실제 광학 흐름을 비교하여 오차 값을 산출하는 단계; 및
상기 오차 값을 역전파하고 경사하강법을 통해 광학 흐름 추정 심층신경망을 훈련하는 단계를 통해 훈련된, 이동체 검출 방법.
청구항 1에 있어서,
상기 제2 심층신경망은,
광학 흐름 영상 내에서 공의 존재 유무 또는 공의 위치를 레이블화하고, 상기 레이블을 상기 제2 심층신경망의 입력으로 활용하여 훈련된, 이동체 검출 방법.
청구항 1에 있어서,
상기 제1 심층신경망은 상기 제1 심층심경망에 적용할 손실함수를 목표 함수로 하여 상기 목표 함수가 최소 값을 갖도록 학습된, 이동체 검출 방법.
청구항 1에 있어서,
상기 제2 심층신경망은, 상기 제2 심층심경망에 적용할 손실함수를 목표 함수로 하여 상기 목표 함수가 최소 값을 갖도록 학습된, 이동체 검출 방법.
청구항 1에 있어서,
상기 제1 심층신경망은,
상기 제1 심층신경망 내부의 적어도 하나의 은닉층의 정점들 간의 연결선에 대한 가중치를 학습하여 형성되는, 이동체 검출 방법.
프로세서; 및
상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함하고,
상기 적어도 하나의 명령은,
복수의 프레임을 포함하는 영상 클립에 대한 광학 흐름을 추정하도록 훈련된 제1 심층신경망을 이용해, 입력된 영상 클립에 대한 광학 흐름을 추정하도록 하는 명령;
광학 흐름 추정 결과를 반영하는 광학 흐름 영상을 도출하도록 하는 명령; 및
상기 제1 심층신경망을 이용해 훈련된 제2 심층신경망을 이용해, 상기 광학 흐름 영상에 기반하여 상기 영상 클립 내 이동체를 검출하도록 하는 명령을 포함하는, 이동체 검출 장치.
청구항 11에 있어서,
상기 영상 클립은 복수의 프레임으로 구성된 스포츠 영상 클립을 포함하는, 이동체 검출 장치.
청구항 11에 있어서,
상기 광학 흐름은 서로 직교하는 두 방향에서의 광학 흐름을 포함하는, 이동체 검출 장치.
청구항 11에 있어서,
상기 제1 심층신경망은,
예측된 광학 흐름과 연산된 실제 광학 흐름 간의 오차 값을 산출하고 산출된 오차 값을 역전파하며, 경사 하강법(gradient descent)을 통해 훈련된, 이동체 검출 장치.
청구항 11에 있어서,
상기 입력된 영상 클립에 대한 광학 흐름을 추정하도록 하는 명령은,
제1 심층신경망을 이용해, 복수의 프레임을 포함하는 제1 그룹 영상 및 상기 제1 그룹 영상 내 각 프레임에 시간적으로 바로 다음으로 후속하는 복수의 프레임을 포함하는 제2 그룹 영상 간의 차이를 이용해 광학 흐름을 예측하도록 하는 명령을 포함하는, 이동체 검출 장치.
청구항 11에 있어서,
상기 제1 심층신경망은,
복수의 프레임을 포함하는 제1 그룹 영상 및 상기 제1 그룹 영상 내 각 프레임에 시간적으로 바로 다음으로 후속하는 복수의 프레임을 포함하는 제2 그룹 영상 간의 차이를 이용해 광학 흐름을 예측하는 단계;
예측된 광학 흐름과 실제 광학 흐름을 비교하여 오차 값을 산출하는 단계; 및
상기 오차 값을 역전파하고 경사하강법을 통해 광학 흐름 추정 심층신경망을 훈련하는 단계를 통해 훈련된, 이동체 검출 장치.
청구항 11에 있어서,
상기 제2 심층신경망은,
광학 흐름 영상 내에서 공의 존재 유무 또는 공의 위치를 레이블화하고, 상기 레이블을 상기 제2 심층신경망의 입력으로 활용하여 훈련된, 이동체 검출 장치.
청구항 11에 있어서,
상기 제1 심층신경망은 상기 제1 심층심경망에 적용할 손실함수를 목표 함수로 하여 상기 목표 함수가 최소 값을 갖도록 학습된, 이동체 검출 장치.
청구항 11에 있어서,
상기 제2 심층신경망은, 상기 제2 심층심경망에 적용할 손실함수를 목표 함수로 하여 상기 목표 함수가 최소 값을 갖도록 학습된, 이동체 검출 장치.
청구항 11에 있어서,
상기 제1 심층신경망은,
상기 제1 심층신경망 내부의 적어도 하나의 은닉층의 정점들 간의 연결선에 대한 가중치를 학습하여 형성된, 이동체 검출 장치.