KR102247557B1

KR102247557B1 - 인-아웃 판정 방법, 이를 수행하기 위한 기록 매체 및 장치

Info

Publication number: KR102247557B1
Application number: KR1020190153281A
Authority: KR
Inventors: 김계영; 김만기
Original assignee: 숭실대학교산학협력단
Priority date: 2019-04-01
Filing date: 2019-11-26
Publication date: 2021-05-03
Also published as: KR20200116399A

Abstract

인-아웃 판정 방법, 이를 수행하기 위한 기록 매체 및 장치가 개시된다. 미리 정해진 규격에 따라 라인이 제공되는 스포츠 환경 영상을 촬영하여 객체의 상기 라인 인 또는 아웃 여부를 판정하는 인-아웃 판정 장치에서의 인-아웃 판정 방법에 있어서, 상기 스포츠 환경 영상에 포함되는 오디오 신호 및 영상 신호를 각각 분리하는 단계, 상기 영상 신호를 분석하여 상기 라인을 검출하는 단계, 상기 오디오 신호 및 상기 영상 신호를 각각 분석하여 상기 객체의 낙하 시점을 검출하는 단계 및 상기 라인 및 상기 객체의 낙하 시점에서의 상기 객체의 위치를 비교하여 상기 객체의 상기 라인 인 또는 아웃 여부를 판정하는 단계를 포함한다.

Description

인-아웃 판정 방법, 이를 수행하기 위한 기록 매체 및 장치{METHOD OF JUDGEMENT FOR IN OR OUT, COMPUTER READABLE MEDIUM AND APPARATUS FOR PERFORMING THE METHOD}

본 발명은 인-아웃 판정 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로, 더욱 상세하게는 라인이 그려지는 스포츠 경기장에서 객체의 라인 인 또는 아웃을 판정하는 인-아웃 판정 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것이다.

스포츠는 다양한 육체적, 정신적 활동을 의미하는 것으로 일상에서 큰 여가 활동으로 자리 잡고 있다.

스포츠는 다양한 형태가 있는데 이중 공을 이용한 구기 종목은 가장 대중적인 스포츠라고 할 수 있다. 대부분의 스포츠에서 심판이 존재하나 특히나 구기 종목은 그 룰(rule)이 다양하고, 공과 사람, 특정 구역 및 라인 등과의 관계에 대한 다양한 룰이 존재한다.

이러한 룰을 이용한 판정은 심판에 의해 결정되는데, 대부분의 구기 종목에서 공의 속도는 매우 빠르기 때문에 순간적인 실수나, 신체 능력의 제한으로 인하여 잘못된 판정을 하기도 한다.

최근에는 심판 합의 판정을 통하여 잘못된 판정을 바로잡을 수 있는 기회를 제공하고 있는데, 이러한 심판 합의 판정에는 경기를 촬영한 영상이 사용된다.

경기를 촬영한 영상 정보를 기반으로 한 영상물체추적을 통해 심판의 판정을 위한 자료를 제공하는데, 선수, 심판 등에 의해 폐색이 된 경우를 최소화하고자 약 10대 가량의 초고속 카메라를 필요로 한다. 그러나 초고속 카메라의 단가가 높고, 처리해야 하는 영상 정보가 늘어남에 따라 그 처리 속도가 느려지고 복잡도가 높다는 문제점이 있다.

국내공개특허 제10-2019-0004809호(2019.01.14.)

본 발명의 일측면은 경기를 촬영한 영상에서 오디오 신호를 분리하고, 영상 신호뿐만 아니라 오디오 신호를 이용하여 라인과 객체의 위치 관계를 판정하는 인-아웃 판정 방법, 이를 수행하기 위한 기록 매체 및 장치를 제공한다.

본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 과제를 해결하기 위한 본 발명의 인-아웃 판정 방법은 미리 정해진 규격에 따라 라인이 제공되는 스포츠 환경 영상을 촬영하여 객체의 상기 라인 인 또는 아웃 여부를 판정하는 인-아웃 판정 장치에서의 인-아웃 판정 방법에 있어서, 상기 스포츠 환경 영상에 포함되는 오디오 신호 및 영상 신호를 각각 분리하는 단계, 상기 영상 신호를 분석하여 상기 라인을 검출하는 단계, 일정 영역이 중복되는 복수의 프레임으로 분할되는 상기 오디오 신호 및 상기 영상 신호를 각각 분석하여 상기 객체의 낙하 시점을 검출하는 단계 및 상기 라인 및 상기 객체의 낙하 시점에서의 상기 객체의 위치를 비교하여 상기 객체의 상기 라인 인 또는 아웃 여부를 판정하는 단계를 포함한다.

한편, 상기 오디오 신호 및 상기 영상 신호를 각각 분석하여 상기 객체의 낙하 시점을 검출하는 단계는, 상기 오디오 신호의 스펙트로그램을 특징 벡터로 추출하는 단계 및 상기 특징 벡터를 객체의 낙하 시점에서의 오디오 신호의 특징을 학습한 딥러닝 신경망에 입력하여 상기 객체의 낙하 시점을 검출하는 단계를 포함할 수 있다.

또한, 상기 오디오 신호 및 상기 영상 신호를 각각 분석하여 상기 객체의 낙하 시점을 검출하는 단계는, 상기 영상 신호에서 전배경분리를 통해 상기 객체를 분리하는 단계, 상기 객체의 중심점에 객체가 낙하하는 움직임을 예측하는 제1 칼만 필터 및 객체가 튕겨져 나가는 움직임을 예측하는 제2 칼만 필터를 각각 적용하는 단계 및 상기 제1 칼만 필터에 의해 예측되는 객체의 중심점 및 상기 제2 칼만 필터에 의해 예측되는 객체의 중심점 간의 교차점을 상기 객체의 낙하 시점으로 검출하는 단계를 포함할 수 있다.

또한, 상기 영상 신호를 분석하여 상기 라인을 검출하는 단계는, 상기 영상 신호에 허프 변환(Hough Transform) 알고리즘을 적용하여 상기 라인을 검출하는 단계일 수 있다.

또한, 상기 오디오 신호 및 상기 영상 신호를 각각 분석하여 상기 객체의 낙하 시점을 검출하는 단계는, 상기 오디오 신호 및 상기 영상 신호로부터 모두 상기 객체의 낙하 시점이 검출되는 경우, 상기 오디오 신호로부터 검출된 상기 객체의 낙하 시점과 상기 영상 신호로부터 검출된 상기 객체의 낙하 시점의 직전 시점 또는 직후 시점의 차이를 계산하고, 계산된 결과에 따라 보정된 낙하 시점을 생성하는 단계를 포함할 수 있다.

또한, 상기 인-아웃 판정 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체일 수 있다.

한편, 본 발명의 인-아웃 판정 장치는 미리 정해진 규격에 따라 라인이 제공되는 스포츠 환경 영상을 촬영하여 객체의 상기 라인 인 또는 아웃 여부를 판정하는 인-아웃 판정 장치에 있어서, 상기 스포츠 환경 영상을 촬영하는 촬영부, 상기 스포츠 환경 영상에 포함되는 오디오 신호 및 영상 신호를 각각 분리하는 영상 분리부, 상기 영상 신호를 분석하여 상기 라인을 검출하는 라인 검출부, 일정 영역이 중복되는 복수의 프레임으로 분할되는 상기 오디오 신호 및 상기 영상 신호를 각각 분석하여 상기 객체의 낙하 시점을 검출하는 낙하 시점 검출부 및 상기 라인 및 상기 객체의 낙하 시점에서의 상기 객체의 위치를 비교하여 상기 객체의 상기 라인 인 또는 아웃 여부를 판정하는 인-아웃 판정부를 포함한다.

한편, 상기 낙하 시점 검출부는, 상기 오디오 신호의 스펙트로그램을 특징 벡터로 추출하고, 상기 특징 벡터를 객체의 낙하 시점에서의 오디오 신호의 특징을 학습한 딥러닝 신경망에 입력하여 상기 객체의 낙하 시점을 검출하는 오디오 신호 분석부를 포함할 수 있다.

또한, 상기 낙하 시점 검출부는, 상기 영상 신호에서 전배경분리를 통해 상기 객체를 분리하고, 상기 객체의 중심점에 객체가 낙하하는 움직임을 예측하는 제1 칼만 필터 및 객체가 튕겨져 나가는 움직임을 예측하는 제2 칼만 필터를 각각 적용하며, 상기 제1 칼만 필터에 의해 예측되는 객체의 중심점 및 상기 제2 칼만 필터에 의해 예측되는 객체의 중심점 간의 교차점을 상기 객체의 낙하 시점으로 검출하는 영상 신호 분석부를 포함할 수 있다.

또한, 상기 라인 검출부는, 상기 영상 신호에 허프 변환(Hough Transform) 알고리즘을 적용하여 상기 라인을 검출할 수 있다.

또한, 상기 낙하 시점 검출부는, 상기 오디오 신호 및 상기 영상 신호로부터 모두 상기 객체의 낙하 시점이 검출되는 경우, 상기 오디오 신호로부터 검출된 상기 객체의 낙하 시점과 상기 영상 신호로부터 검출된 상기 객체의 낙하 시점의 직전 시점 또는 직후 시점의 차이를 계산하고, 계산된 결과에 따라 보정된 낙하 시점을 생성할 수 있다.

본 발명에 따르면 객체가 폐색이 된 경우를 최소화하기 위한 초고속 카메라와 같은 고가의 장비가 요구되지 않으며, 다양한 조건 하에서의 라인과 객체의 정확한 위치 관계 판정이 가능하다.

도 1은 본 발명의 일 실시예에 따른 인-아웃 판정 장치의 블록도이다.
도 2는 도 1에 도시된 낙하 시점 검출부의 세부 블록도이다.
도 3은 도2의 오디오 신호 분석부에서 스펙트로그램을 생성하는 과정을 나타내는 개략도이다.
도 4는 도2의 오디오 신호 분석부에서 딥러닝 신경망을 학습하는 과정을 나타내는 개략도이다.
도 5는 도1의 낙하 시점 검출부에서 낙하 시점을 검출하는 일 실시예를 나타내는 개략도이다.
도 6 내지 도 8은 본 발명의 일 실시예에 따른 인-아웃 판정 방법의 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 인-아웃 판정 장치의 블록도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 인-아웃 판정 장치(1)는 촬영부(10), 영상 분리부(30), 라인 검출부(50), 낙하 시점 검출부(70) 및 인-아웃 판정부(90)를 포함한다.

본 발명의 일 실시예에 따른 인-아웃 판정 장치(1)는 도 1에 도시된 구성요소보다 많은 구성요소에 의해 구현될 수 있고, 그보다 적은 구성요소에 의해 구현될 수도 있다.

본 발명의 일 실시예에 따른 인-아웃 판정 장치(1)는 통신이 가능하고 정보의 입출력이 가능한 장치로, 예를 들면, 스마트폰, 태블릿, PC 등으로 구현될 수 있으며, 본 발명의 일 실시예에 따른 인-아웃 판정을 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있다.

도 1에 도시된 촬영부(10), 영상 분리부(30), 라인 검출부(50), 낙하 시점 검출부(70) 및 인-아웃 판정부(90)의 구성은 본 발명의 일 실시예에 따른 인-아웃 판정 장치(1)에서 실행되는 소프트웨어에 의해 제어될 수 있다.

본 발명의 일 실시예에 따른 인-아웃 판정 장치(1)는 미리 정해진 규격에 따라 라인이 제공되는 스포츠 환경에서 객체의 라인 인 또는 아웃 여부를 판정할 수 있다. 예를 들면, 스포츠 환경은 미리 정해진 규격에 따라 라인이 그려지는 경기장에서 진행되는 경기에 해당하고, 객체는 구기 종목에서 사용되는 공에 해당할 수 있다.

본 발명의 일 실시예에 따른 인-아웃 판정 장치(1)는 스포츠 환경의 영상을 촬영하고, 영상을 오디오 신호 및 영상 신호로 나누어 분석하여 객체의 라인 인 또는 아웃 여부를 판정할 수 있다. 구기 종목과 같이 라인이 제공되는 스포츠 환경에서 공과 같은 객체의 라인 인 또는 아웃 판정은 점수 획득 유무를 결정하는 중요한 요소로, 정확한 판정이 요구된다. 영상 신호만을 이용하여 라인과 객체의 위치 관계를 판정하는 경우, 객체가 폐색되어 있는 상황에서는 정확한 판정이 어렵다. 본 발명의 일 실시예에 따른 인-아웃 판정 장치(1)는 영상 신호뿐만 아니라 오디오 신호를 이용하여 라인과 객체의 위치 관계를 판정하므로 다양한 조건 하에서의 라인과 객체의 정확한 위치 관계 판정이 가능하다.

이하 도 1에 도시된 본 발명의 일 실시예에 따른 인-아웃 판정 장치(1)의 각 구성요소에 대해 구체적으로 설명한다.

촬영부(10)는 스포츠 환경 영상을 획득할 수 있다. 이하 스포츠 환경 영상은 미리 정해진 규격에 따라 라인이 그려진 경기장에서 진행되는 경기 영상으로, 판정 대상인 라인 및 객체가 포함되는 영상으로 정의한다. 또한 영상은 영상 신호 및 오디오 신호를 포함하는 동영상으로 정의한다.

촬영부(10)는 스포츠 환경 영상 획득을 위해 적어도 하나의 카메라 모듈을 포함할 수 있다.

예를 들면, 촬영부(10)는 경기장에 그려진 라인의 적어도 일부를 촬영할 수 있는 각도로 고정된 적어도 하나의 카메라 모듈을 포함할 수 있다.

영상 분리부(30)는 스포츠 환경 영상에 포함되는 오디오 신호 및 영상 신호를 각각 분리할 수 있다.

상술한 것처럼 스포츠 환경 영상은 오디오 신호 및 영상 신호로 이루어질 수 있다. 일예로, 스포츠 환경 영상은 엠펙(MPEG: Moving Picture Expert Group)에 의해 압축된 데이타일 수 있다. 이와 같은 경우 오디오 신호의 주파수는 대략 48kHz 또는 44.1kHz가 될 수 있다. 영상 분리부(30)는 스포츠 환경 영상으로부터 로우(raw) 펄스 코드 변조(PCM: Pulse Code Modulation) 포맷을 추출하고, 추출된 로우 PCM 포맷을 오디오 신호로 분리할 수 있다.

라인 검출부(50)는 영상 신호를 분석하여 경기장에 그려진 라인을 검출하여 판정 대상 라인으로 추출할 수 있다.

라인 검출부(50)는 허프 변환(Hough Transform) 알고리즘을 이용하여 영상 신호에서 라인을 검출할 수 있다. 허프 변환 알고리즘은 영상 신호에서 직선, 곡선, 원과 같은 특징을 찾는데 널리 이용되는 방식으로, 직교좌표계를 사용하지 않고 극좌표계를 사용하여 직선을 검출하는 방식이다.

낙하 시점 검출부(70)는 영상 신호 및 오디오 신호를 각각 분석하여 객체의 낙하 시점을 검출할 수 있다. 이와 관련하여 구체적인 설명은 도 2를 참조하여 후술한다.

인-아웃 판정부(90)는 라인 및 낙하 시점에서의 객체의 위치를 비교하여 객체의 라인 인 또는 아웃 여부를 판정할 수 있다.

예를 들면, 인-아웃 판정부(90)는 낙하 시점 검출부(70)에서 검출되는 낙하 시점에서의 객체의 위치로부터 경계선을 생성하고, 경계선과 라인 검출부(50)에서 검출되는 직선의 교차점의 개수에 따라 라인 인 또는 아웃을 판정할 수 있다.

한편, 인-아웃 판정부(90)는 스포츠 환경 영상에서의 라인의 좌표에 대응하는 실 좌표를 획득할 수 있다. 여기서, 실 좌표는 실제 경기장에서의 좌표일 수 있다. 인-아웃 판정부(90)는 미리 정해진 스포츠 환경 영상에서의 좌표와 실 좌표의 상관 관계 또는 스포츠 환경 영상에서의 좌표와 실 좌표의 좌표 테이블에 기초하여, 라인 검출부(50)에서 검출한 라인의 실 좌표를 산출할 수 있다.

인-아웃 판정부(90)는 스포츠 환경 영상에서 객체의 낙하 시점의 프레임을 획득하고, 낙하 시점의 프레임에서의 객체의 좌표에 대응하는 실 좌표를 획득할 수 있다. 인-아웃 판정부(90)는 미리 정해진 스포츠 환경 영상에서의 좌표와 실 좌표의 상관 관계 또는 스포츠 환경 영상에서의 좌표와 실 좌표의 좌표 테이블에 기초하여, 낙하 시점 검출부(70)에서 검출한 낙하 시점에서 객체의 실 좌표를 산출할 수 있다.

인-아웃 판정부(90)는 라인의 실 좌표 및 낙하 시점에서 객체의 실 좌표를 비교하여 객체의 라인 인 또는 아웃 여부를 판정할 수 있다.

또는, 인-아웃 판정부(90)는 스포츠 환경 영상에서 객체의 낙하 시점의 프레임, 낙하 시점 이전의 프레임 및 낙하 시점 이후의 프레임을 포함하는 판정 영상을 생성하고, 판정 영상을 출력하여 사용자로부터 객체의 라인 인 또는 아웃 여부를 입력 받을 수 있다. 즉 인-아웃 판정부(90)는 사용자가 육안으로 판단하는 객체의 라인 인 또는 아웃 여부를 입력 받아 객체의 라인 인 또는 아웃 여부를 판정할 수도 있다.

한편, 낙하 시점 검출부(70)는 영상 신호 및 오디오 신호를 각각 분석하여 객체의 낙하 시점을 검출할 수 있다. 즉, 낙하 시점은 영상 신호로부터 검출된 것이거나, 오디오 신호로부터 검출된 것일 수 있다. 인-아웃 판정부(90)는 영상 신호로부터 검출된 낙하 시점 및 오디오 신호로부터 검출된 낙하 시점이 모두 존재하는 경우, 오디오 신호로부터 검출된 낙하 시점을 기준으로 하여 객체의 라인 인 또는 아웃 여부 판정을 처리할 수 있다.

인-아웃 판정부(90)는 객체의 라인 인 또는 아웃 여부의 판정 결과를 출력할 수 있다. 인-아웃 판정부(90)는 객체의 라인 인 또는 아웃 여부의 판정 결과 출력 시, 스포츠 환경 영상에서 객체의 낙하 시점의 프레임, 낙하 시점 이전의 프레임 및 낙하 시점 이후의 프레임을 포함하는 판정 영상을 함께 출력할 수도 있다.

도 2는 도 1에 도시된 낙하 시점 검출부의 세부 블록도이다.

도 2를 참조하면, 낙하 시점 검출부(70)는 오디오 신호 분석부(71) 및 영상 신호 분석부(73)를 포함한다.

오디오 신호 분석부(71)는 오디오 신호를 분석하여 객체의 낙하 시점을 검출할 수 있다.

오디오 신호 분석부(71)는 오디오 신호의 스펙트로그램(Spectrogram)을 추출할 수 있다. 스펙트로그램은 신호, 특히, 주파수의 스펙트럼 밀도가 시간에 따라 어떻게 변하는지를 나타내는 것으로, 주파수 대 시간의 함수로 표현될 수 있다. 예를 들면, 오디오 신호 분석부(71)는 오디오 신호를 복수의 윈도우를 이용하여 복수의 프레임으로 분할하고, 분할된 각각의 프레임을 FFT(Fast Fourier Transform) 등을 이용하여 주파수 영역으로 변환하여 주파수 스펙트럼을 생성할 수 있다. 오디오 신호 분석부(71)는 생성한 주파수 스펙트럼을 로그 스케일(Logarithmic Scaling)로 나타냄으로써 스펙트로그램을 추출할 수 있다.

오디오 신호 분석부(71)는 오디오 신호의 스펙트로그램을 특징 벡터로 추출하여 학습이 완료된 딥러닝 신경망의 입력 파라미터로 적용할 수 있다.

본 실시예에서 딥러닝 신경망은 LSTM(Long Short Term Memory) 모듈일 수 있다. LSTM은 이전 프레임의 신호를 현재 프레임에 반영하여 시간적으로 연속하는 데이터를 처리하는 기법으로서, 메모리 셀(memory cell)에 이전의 정보들(예컨대, 오디오 신호와 관련된 데이터들)을 저장하고 게이트들(gate)을 통하여 메모리 셀로 흐르는 정보의 양을 조절한다. 본 실시예에서 LSTM 모듈은 객체의 낙하 시점에서의 오디오 신호의 특징을 학습한 딥러닝 신경망으로, 오디오 신호에서 객체의 낙하 시점의 예측을 수행하도록 구성될 수 있다.

오디오 신호 분석부(71)는 오디오 신호의 특징 벡터를 딥러닝 신경망에 입력하여 오디오 신호로부터 객체의 낙하 시점을 검출할 수 있다.

영상 신호 분석부(73)는 영상 신호를 분석하여 객체의 낙하 시점을 검출할 수 있다.

영상 신호 분석부(73)는 영상 신호에 소정의 전처리 단계를 수행한 뒤, 전배경분리를 수행하여 객체를 분리할 수 있다. 이를 위해 영상 신호 분석부(73)는 배경정보를 미리 저장할 수 있다.

영상 신호 분석부(73)는 영상 신호로부터 분리한 객체의 중심점에 칼만 필터를 적용하여 객체의 낙하 시점을 예측 및 검출할 수 있다.

칼만 필터는 영상처리에 있어서 객체 트래킹에 널리 사용되는 방식으로, 대상 시스템의 확률적인 모델과 측정값을 이용하여 시스템의 상태변수를 찾아내는 최적 추정기법이다. 칼만 필터를 이용한 객체 추적 방법은 예측과 갱신을 하는 구조로 진행되며, 예컨대, 객체의 중심점 좌표를 측정값으로 하여 선형적인 움직임을 예측할 수 있다.

영상 신호 분석부(73)는 객체가 낙하하는 움직임을 예측하는 제1 칼만 필터 및 객체가 지면으로부터 튕겨져 나가는 움직임을 예측하는 제2 칼만 필터를 이용할 수 있다.

영상 신호 분석부(73)는 객체의 중심점에 제1 칼만 필터를 적용하여 예측되는 객체의 중심점과 제2 칼만 필터를 적용하여 예측되는 객체의 중심점 간의 교차점을 객체의 낙하 시점으로 검출할 수 있다.

이와 같이, 본 발명의 일 실시예에 따른 인-아웃 판정 장치(1)는 영상 신호뿐만 아니라 오디오 신호를 이용하여 객체의 낙하 시점을 검출하여 객체의 라인 인 또는 아웃을 판정할 수 있다. 종래에는 영상 신호에 의존하여 객체의 낙하 시점을 검출하였는데, 이에 객체가 폐색이 된 경우를 최소화하기 위하여 초고속 카메라와 같이 고가의 장비가 요구되고, 처리가 복잡해진다는 문제점이 있었다. 그러나 본 발명의 일 실시예에 따른 인-아웃 판정 장치(1)는 영상 신호뿐만 아니라 오디오 신호로부터 객체의 낙하 시점 검출이 가능하므로, 일반 카메라를 이용하더라도 라인과 객체의 정확한 위치 관계 판정이 가능하다.

도 3은 도2의 오디오 신호 분석부에서 스펙트로그램을 생성하는 과정을 나타내는 개략도이다.

여기에서, 오디오 신호 분석부(71)는 각각의 윈도우가 나타내는 일정 영역이 중복되도록 오디오 신호를 복수의 프레임으로 분할할 수 있다.

도3을 참조하면, 오디오 신호를 분석하는 각각의 윈도우가 50% 만큼 중복되는 것을 확인할 수 있다.

이때, 오디오 신호를 분석하는 윈도우의 개수는 각각의 윈도우의 크기에 따라 다르게 결정될 수 있으며, 이를 위해, 오디오 신호 분석부(71)에서 오디오 신호를 분석하는 복수의 윈도우 크기는 임의의 크기로 설정될 수 있다.

이에 따라, 오디오 신호 분석부(71)는 복수의 윈도우로 분할된 각각의 프레임을 FFT 등을 이용하여 주파수 영역으로 변환하여 주파수 스펙트럼을 생성할 수 있으며, 오디오 신호 분석부(71)는 생성한 주파수 스펙트럼을 로그 스케일(Logarithmic Scaling)로 나타냄으로써 스펙트로그램을 추출할 수 있다.

한편, 오디오 신호 분석부(71)는 오디오 신호의 스펙트로그램을 특징 벡터로 추출하여 학습이 완료된 딥러닝 신경망의 입력 파라미터로 적용할 수 있다.

이와 관련하여, 오디오 신호 분석부(71)는 오디오 신호의 스펙트로그램을 양자화(Quantization)할 수 있으며, 이에 따라, 오디오 신호 분석부(71)는 오디오 신호의 스펙트로그램을 사전에 설정되는 양자화 레벨의 개수와 동일한 개수의 특징 벡터로 추출할 수 있다.

예를 들어, 오디오 신호 분석부(71)는 오디오 신호의 스펙트로그램에 40 레벨로 나타나는 양자화를 적용할 수 있으며, 이러한 경우에, 오디오 신호 분석부(71)는 오디오 신호의 스펙트로그램으로부터 40개의 특징 벡터를 추출할 수 있다.

한편, 특징 벡터는 오디오 신호로부터 분할된 복수의 프레임 각각에서 다르게 나타날 수 있으며, 예를 들어, 오디오 신호가 132개의 프레임으로 분할된 경우에, 특징 벡터는 132개의 프레임 각각에서 40개의 단계에 따라 나타날 수 있는 것으로 이해할 수 있다.

도 4는 도2의 오디오 신호 분석부에서 딥러닝 신경망을 학습하는 과정을 나타내는 개략도이다.

이때, 딥러닝 신경망은 특징 벡터로 나타나도록 오디오 신호로부터 분할된 복수의 프레임 중에서, 연속되는 일부의 프레임으로 학습될 수 있다.

이와 관련하여, 딥러닝 신경망은 복수의 프레임으로부터 적어도 하나 이상의 일부의 프레임으로 학습될 수 있으며, 이때, 복수의 프레임으로부터 추출되는 일부의 프레임은 오디오 신호로부터 분할된 복수의 프레임 중 시계열적으로 가장 앞선 프레임을 포함하는 일부의 프레임과 시계열적으로 가장 뒤진 프레임을 포함하는 일부의 프레임을 포함할 수 있다.

도4를 참조하면, 오디오 신호로부터 복수의 프레임이 132개 추출된 것으로 이해할 수 있으며, 각각의 프레임은 40개의 레벨로 나타나는 특징 벡터를 포함하는 것으로 이해할 수 있다.

이에 따라, 딥러닝 신경망은 132개의 프레임 중 130개의 프레임을 포함하는 일부의 프레임으로 3회 학습되는 것으로 이해할 수 있으며, 각각의 일부 프레임은 1~130 프레임, 2~131 프레임, 3~132 프레임을 포함하는 것으로 이해할 수 있다.

한편, 오디오 신호 분석부(71)는 오디오 신호의 특징 벡터를 딥러닝 신경망에 입력하여 오디오 신호로부터 객체의 낙하 시점을 검출할 수 있다.

이때, 오디오 신호 분석부(71)는 오디오 신호로부터 추출되는 복수의 프레임을 시계열적으로 이동된 위치에서 추출할 수 있으며, 이에 따라, 오디오 신호 분석부(71)는 서로 다른 복수의 프레임으로부터 특징 벡터를 추출하고, 특징 벡터가 추출된 서로 다른 복수의 프레임의 특징 벡터를 딥러닝 신경망에 입력할 수 있다.

이에 따라, 오디오 신호 분석부(71)는 서로 다른 복수의 프레임의 특징 벡터에 대한 딥러닝 신경망의 인식률을 검출할 수 있으며, 오디오 신호 분석부(71)는 시계열적으로 서로 다른 복수의 프레임의 특징 벡터로부터 인식률이 가장 높게 검출된 특징 벡터를 검출할 수 있으며, 오디오 신호 분석부(71)는 해당 특징 벡터가 나타내는 시점을 낙하 시점으로 검출할 수 있다.

도 5는 도1의 낙하 시점 검출부에서 낙하 시점을 검출하는 일 실시예를 나타내는 개략도이다.

낙하 시점 검출부(70)는 오디오 신호 분석부(71)에서 검출되는 낙하 시점과 영상 신호 분석부(73)에서 검출되는 낙하 시점의 직전 프레임과 직후 프레임을 비교하여 낙하 시점을 보정할 수 있다.

도5를 참조하면, 오디오 신호 분석부(71)에서 검출되는 낙하 시점(A_t)을 확인할 수 있으며, 영상 신호 분석부(73)에서 검출되는 낙하 시점(I_t)의 직전 프레임의 시점을 나타내는 직전 시점(F_t-1)과 직후 프레임의 시점을 나타내는 직후 시점(F_t)을 확인할 수 있다.

이에 따라, 낙하 시점 검출부(70)는 오디오 신호 분석부(71)에서 검출되는 낙하 시점(A_t)과 영상 신호 분석부(73)에서 검출되는 낙하 시점(I_t)의 직전 시점(F_t-1)의 차이를 계산하여 제1 시간 변수를 생성할 수 있고, 낙하 시점 검출부(70)는 영상 신호 분석부(73)에서 검출되는 낙하 시점(I_t)의 직후 시점(F_t)과 오디오 신호 분석부(71)에서 검출되는 낙하 시점(A_t)의 차이를 계산하여 제2 시간 변수를 생성할 수 있다.

이에 대해, 낙하 시점 검출부(70)는 제1 칼만 필터에 제1 시간 변수를 영상 신호에 따라 나타나는 프레임 간의 시간 간격으로 설정할 수 있으며, 낙하 시점 검출부(70)는 제2 칼만 필터에 제2 시간 변수를 영상 신호에 따라 나타나는 프레임 간의 시간 간격으로 설정할 수 있다.

이에 따라, 본 발명의 일 실시예에 따른 인-아웃 판정 장치(1)는 영상 신호와 오디오 신호로부터 보정된 객체의 낙하 시점 검출이 가능하므로, 일반 카메라를 이용하더라도 라인과 객체의 정확한 위치 관계 판정이 가능하다.

이하 도 6 이하를 참조하여 본 발명의 일 실시예에 따른 인-아웃 판정 방법에 대해 설명한다.

도 6 내지 도 8은 본 발명의 일 실시예에 따른 인-아웃 판정 방법의 흐름도이다.

본 발명의 일 실시예에 따른 인-아웃 판정 방법은 도 1에 도시된 본 발명의 일 실시예에 따른 인-아웃 판정 장치(1)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서 도 1의 인-아웃 판정 장치(1)와 동일한 구성요소는 동일한 도면부호를 부여하고 반복되는 설명은 생략한다.

도 6을 참조하면, 촬영부(10)는 라인이 제공되는 스포츠 환경 영상을 촬영할 수 있다(S100).

촬영부(10)는 스포츠 환경 영상 획득을 위해 적어도 하나의 카메라 모듈을 포함할 수 있다. 예를 들면, 촬영부(10)는 경기장에 그려진 라인의 적어도 일부를 촬영할 수 있는 각도로 고정된 적어도 하나의 카메라 모듈을 포함할 수 있다.

영상 분리부(30)는 스포츠 환경 영상을 오디오 신호 및 영상 신호로 분리할 수 있다(S200).

스포츠 환경 영상은 오디오 신호 및 영상 신호로 이루어질 수 있다. 영상 분리부(30)는 스포츠 환경 영상으로부터 로우(raw) 펄스 코드 변조(PCM: Pulse Code Modulation) 포맷을 추출하고, 추출된 로우 PCM 포맷을 오디오 신호로 분리할 수 있다.

라인 검출부(50)는 영상 신호로부터 라인을 검출할 수 있다(S300).

라인 검출부(50)는 영상 신호를 분석하여 경기장에 그려진 라인을 검출하여 판정 대상 라인으로 추출할 수 있다. 라인 검출부(50)는 허프 변환(Hough Transform) 알고리즘을 이용하여 영상 신호에서 라인을 검출할 수 있다. 허프 변환 알고리즘은 영상 신호에서 직선, 곡선, 원과 같은 특징을 찾는데 널리 이용되는 방식으로, 직교좌표계를 사용하지 않고 극좌표계를 사용하여 직선을 검출하는 방식이다.

낙하 시점 검출부(70)는 오디오 신호 및 영상 신호로부터 객체의 낙하 시점을 검출할 수 있다(S400). 이와 관련하여 구체적인 설명은 도 7 및 도 8를 참조하여 후술한다.

낙하 시점 검출부(70)는 영상 신호 및 오디오 신호를 각각 분석하여 객체의 낙하 시점을 검출할 수 있다(S400).

낙하 시점 검출부(70)는 스포츠 환경 영상의 상태에 따라 영상 신호로부터만 객체의 낙하 시점을 검출하거나, 오디오 신호로부터만 객체의 낙하 시점을 검출하거나, 영상 신호 및 오디오 신호로부터 모두 객체의 낙하 시점을 검출할 수 있다. 이와 관련하여 구체적인 설명은 도 2를 참조하여 후술한다.

인-아웃 판정부(90)는 라인과 낙하 시점에서의 객체의 위치를 비교하여 객체의 라인 인 또는 아웃을 판정할 수 있다(S500).

인-아웃 판정부(90)는 스포츠 환경 영상에서의 라인의 좌표에 대응하는 실 좌표를 획득할 수 있다. 인-아웃 판정부(90)는 스포츠 환경 영상에서 객체의 낙하 시점의 프레임을 획득하고, 낙하 시점의 프레임에서의 객체의 좌표에 대응하는 실 좌표를 획득할 수 있다. 인-아웃 판정부(90)는 라인의 실 좌표 및 낙하 시점에서 객체의 실 좌표를 비교하여 객체의 라인 인 또는 아웃 여부를 판정할 수 있다.

여기에서, 인-아웃 판정부(90)는 영상 신호로부터 검출된 낙하 시점 및 오디오 신호로부터 검출된 낙하 시점이 모두 존재하는 경우, 오디오 신호로부터 검출된 낙하 시점을 기준으로 하여 객체의 라인 인 또는 아웃 여부 판정을 처리할 수 있다.

도 7를 참조하면, 낙하 시점 검출부(70)는 오디오 신호에서 스펙트로그램(Spectrogram)을 추출하고(S410), 오디오 신호의 스펙트로그램을 특징 벡터로 추출할 수 있다(S420).

낙하 시점 검출부(70)는 오디오 신호를 복수의 윈도우를 이용하여 복수의 프레임으로 분할하고, 분할된 각각의 프레임을 FFT(Fast Fourier Transform) 등을 이용하여 주파수 영역으로 변환하여 주파수 스펙트럼을 생성할 수 있다. 낙하 시점 검출부(70)는 생성한 주파수 스펙트럼을 로그 스케일(Logarithmic Scaling)로 나타냄으로써 스펙트로그램을 추출할 수 있다.

낙하 시점 검출부(70)는 특징 벡터를 딥러닝 신경망에 입력하여 객체의 낙하 시점을 검출할 수 있다(S430).

본 실시예에서 딥러닝 신경망은 오디오 신호에서 객체의 낙하 시점의 예측을 수행하도록 구성된 딥러닝 신경망으로, 객체의 낙하 시점에서의 오디오 신호의 특징을 학습한 LSTM 모듈일 수 있다.

낙하 시점 검출부(70)는 특징 벡터를 학습이 완료된 딥러닝 신경망의 입력 파라미터로 적용하여 낙하 시점을 검출할 수 있다.

또는, 도 8를 참조하면, 낙하 시점 검출부(70)는 영상 신호의 전배경분리를 통해 객체를 분리할 수 있다(S440).

낙하 시점 검출부(70)는 영상 신호에 소정의 전처리 단계를 수행한 뒤, 전배경분리를 수행하여 객체를 분리할 수 있다.

낙하 시점 검출부(70)는 영상 신호로부터 분리한 객체의 중심점을 칼만 필터로 추적하여 객체의 낙하 시점을 검출할 수 있다(S450).

낙하 시점 검출부(70)는 객체가 낙하하는 움직임을 예측하는 제1 칼만 필터 및 객체가 지면으로부터 튕겨져 나가는 움직임을 예측하는 제2 칼만 필터를 이용할 수 있다.

낙하 시점 검출부(70)는 객체의 중심점에 제1 칼만 필터를 적용하여 예측되는 객체의 중심점과 제2 칼만 필터를 적용하여 예측되는 객체의 중심점 간의 교차점을 객체의 낙하 시점으로 검출할 수 있다.

이와 같은, 본 발명의 인-아웃 판정 방법은 어플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

1: 인-아웃 판정 장치
10: 촬영부
30: 영상 분리부
50: 라인 검출부
70: 낙하 시점 검출부
90: 인-아웃 판정부

Claims

미리 정해진 규격에 따라 라인이 제공되는 스포츠 환경 영상을 촬영하여 객체의 상기 라인 인 또는 아웃 여부를 판정하는 인-아웃 판정 장치에서의 인-아웃 판정 방법에 있어서,
상기 스포츠 환경 영상에 포함되는 오디오 신호 및 영상 신호를 각각 분리하는 단계;
상기 영상 신호를 분석하여 상기 라인을 검출하는 단계;
일정 영역이 중복되는 복수의 프레임으로 분할되는 상기 오디오 신호 및 상기 영상 신호를 각각 분석하여 상기 객체의 낙하 시점을 검출하는 단계; 및
상기 라인 및 상기 객체의 낙하 시점에서의 상기 객체의 위치를 비교하여 상기 객체의 상기 라인 인 또는 아웃 여부를 판정하는 단계를 포함하는 인-아웃 판정 방법.
제1항에 있어서,
상기 오디오 신호 및 상기 영상 신호를 각각 분석하여 상기 객체의 낙하 시점을 검출하는 단계는,
상기 오디오 신호의 스펙트로그램을 특징 벡터로 추출하는 단계; 및
상기 특징 벡터를 객체의 낙하 시점에서의 오디오 신호의 특징을 학습한 딥러닝 신경망에 입력하여 상기 객체의 낙하 시점을 검출하는 단계를 포함하는 인-아웃 판정 방법.
제1항에 있어서,
상기 오디오 신호 및 상기 영상 신호를 각각 분석하여 상기 객체의 낙하 시점을 검출하는 단계는,
상기 영상 신호에서 전배경분리를 통해 상기 객체를 분리하는 단계;
상기 객체의 중심점에 객체가 낙하하는 움직임을 예측하는 제1 칼만 필터 및 객체가 튕겨져 나가는 움직임을 예측하는 제2 칼만 필터를 각각 적용하는 단계; 및
상기 제1 칼만 필터에 의해 예측되는 객체의 중심점 및 상기 제2 칼만 필터에 의해 예측되는 객체의 중심점 간의 교차점을 상기 객체의 낙하 시점으로 검출하는 단계를 포함하는 인-아웃 판정 방법.
제1항에 있어서,
상기 영상 신호를 분석하여 상기 라인을 검출하는 단계는,
상기 영상 신호에 허프 변환(Hough Transform) 알고리즘을 적용하여 상기 라인을 검출하는 단계인 인-아웃 판정 방법.
제1항에 있어서,
상기 오디오 신호 및 상기 영상 신호를 각각 분석하여 상기 객체의 낙하 시점을 검출하는 단계는,
상기 오디오 신호 및 상기 영상 신호로부터 모두 상기 객체의 낙하 시점이 검출되는 경우, 상기 오디오 신호로부터 검출된 상기 객체의 낙하 시점과 상기 영상 신호로부터 검출된 상기 객체의 낙하 시점의 직전 시점 또는 직후 시점의 차이를 계산하고, 계산된 결과에 따라 보정된 낙하 시점을 생성하는 단계를 포함하는 인-아웃 판정 방법.
제1항에 따른 인-아웃 판정 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
미리 정해진 규격에 따라 라인이 제공되는 스포츠 환경 영상을 촬영하여 객체의 상기 라인 인 또는 아웃 여부를 판정하는 인-아웃 판정 장치에 있어서,
상기 스포츠 환경 영상을 촬영하는 촬영부;
상기 스포츠 환경 영상에 포함되는 오디오 신호 및 영상 신호를 각각 분리하는 영상 분리부;
상기 영상 신호를 분석하여 상기 라인을 검출하는 라인 검출부;
일정 영역이 중복되는 복수의 프레임으로 분할되는 상기 오디오 신호 및 상기 영상 신호를 각각 분석하여 상기 객체의 낙하 시점을 검출하는 낙하 시점 검출부; 및
상기 라인 및 상기 객체의 낙하 시점에서의 상기 객체의 위치를 비교하여 상기 객체의 상기 라인 인 또는 아웃 여부를 판정하는 인-아웃 판정부를 포함하는 인-아웃 판정 장치.
제7항에 있어서,
상기 낙하 시점 검출부는,
상기 오디오 신호의 스펙트로그램을 특징 벡터로 추출하고, 상기 특징 벡터를 객체의 낙하 시점에서의 오디오 신호의 특징을 학습한 딥러닝 신경망에 입력하여 상기 객체의 낙하 시점을 검출하는 오디오 신호 분석부를 포함하는 인-아웃 판정 장치.
제7항에 있어서,
상기 낙하 시점 검출부는,
상기 영상 신호에서 전배경분리를 통해 상기 객체를 분리하고, 상기 객체의 중심점에 객체가 낙하하는 움직임을 예측하는 제1 칼만 필터 및 객체가 튕겨져 나가는 움직임을 예측하는 제2 칼만 필터를 각각 적용하며, 상기 제1 칼만 필터에 의해 예측되는 객체의 중심점 및 상기 제2 칼만 필터에 의해 예측되는 객체의 중심점 간의 교차점을 상기 객체의 낙하 시점으로 검출하는 영상 신호 분석부를 포함하는 인-아웃 판정 장치.
제7항에 있어서,
상기 라인 검출부는,
상기 영상 신호에 허프 변환(Hough Transform) 알고리즘을 적용하여 상기 라인을 검출하는 인-아웃 판정 장치.
제7항에 있어서,
상기 낙하 시점 검출부는,
상기 오디오 신호 및 상기 영상 신호로부터 모두 상기 객체의 낙하 시점이 검출되는 경우, 상기 오디오 신호로부터 검출된 상기 객체의 낙하 시점과 상기 영상 신호로부터 검출된 상기 객체의 낙하 시점의 직전 시점 또는 직후 시점의 차이를 계산하고, 계산된 결과에 따라 보정된 낙하 시점을 생성하는 인-아웃 판정 장치.