KR20210132300A - 인공 지능을 이용한 스포츠 동영상 검색 방법 및 검색 시스템 - Google Patents

인공 지능을 이용한 스포츠 동영상 검색 방법 및 검색 시스템 Download PDF

Info

Publication number
KR20210132300A
KR20210132300A KR1020200050489A KR20200050489A KR20210132300A KR 20210132300 A KR20210132300 A KR 20210132300A KR 1020200050489 A KR1020200050489 A KR 1020200050489A KR 20200050489 A KR20200050489 A KR 20200050489A KR 20210132300 A KR20210132300 A KR 20210132300A
Authority
KR
South Korea
Prior art keywords
representative screen
information
search
representative
sports
Prior art date
Application number
KR1020200050489A
Other languages
English (en)
Inventor
강현수
강은철
Original Assignee
주식회사 코난테크놀로지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코난테크놀로지 filed Critical 주식회사 코난테크놀로지
Priority to KR1020200050489A priority Critical patent/KR20210132300A/ko
Publication of KR20210132300A publication Critical patent/KR20210132300A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/743Browsing; Visualisation therefor a collection of video files or sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • G06K9/00711
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

인공 지능을 이용한 스포츠 동영상 검색 방법 및 검색 시스템이 개시된다. 일 실시 예에 따른 스포츠 동영상 검색 방법은, 수집된 스포츠 동영상 데이터에서 장면별로 대표 화면을 선정하고, 선정된 대표 화면에 해당하는 적어도 하나의 특징 정보를 추출하여 각각의 대표 화면에 대응시킨 딥러닝 학습 모델을 구축하는 학습 모델 구축 단계; 상기 각각의 대표 화면과 특징 정보를, 상기 대표 화면의 시간 정보와 함께 색인하여 저장하는 색인 정보 구축 단계; 및 검색어를 입력받아, 입력된 검색어를 키워드로 하여 상기 색인 정보를 검색하고, 해당 색인 정보에 대응되는 대표 화면이 포함된 스포츠 동영상을 찾아 제공하는 검색 수행 단계를 포함한다. 이를 통해 별도의 메타데이터를 수동으로 만들 필요가 없으므로 효율적이며, 인공 지능을 이용하여 높은 정확도와 빠른 검색 결과를 얻을 수 있다.

Description

인공 지능을 이용한 스포츠 동영상 검색 방법 및 검색 시스템 {Sports video search method and search system using artificial intelligence}
본 발명은 동영상 검색 기술에 관한 것으로, 보다 구체적으로는 인공 지능을 이용한 스포츠 동영상 검색 방법 및 검색 시스템에 관한 것이다.
현재 동영상 콘텐츠의 생성과 소비는 비약적으로 증가하고 있다. 구글의 유튜브의 경우, 매월 15억 명의 사용자가 1시간 이상씩 시청하고 있으며, 1분당 300시간 이상의 동영상이 지속적으로 업로드 되고 있다. 이러한 환경에 맞춰 검색의 수요도 텍스트 검색에서 음성 검색으로, 음성 검색에서 이미지 검색으로, 이미지 검색에서 동영상 검색으로 점점 변화하고 있다.
이를 위해 동영상 콘텐츠는 텍스트 검색과 달리 검색어와 매칭할 별도의 데이터가 필요하다. 예를 들어 더블린 코어와 MPEG-7 과 같은 메타데이터 표준에 따라 동영상의 메타데이터를 만들어 함께 저장하였다가, 이 메타데이터에서 키워드 검색을 수행하도록 할 수 있다. 또는 태그와 같은 별도의 인덱스를 만들고 이를 활용하여 동영상 콘텐츠 검색에 활용하기도 한다.
그러나, 이러한 메타데이터, 태그는 일반적으로 사람이 직접 작성하여야 하므로, 효율적이지 못하고 시간과 노력이 많이 든다. 이미지 검색에 있어서는 최근 인공 지능과 같은 자동화된 검색 기술이 사용되고 있으나, 동영상 검색의 경우는 이러한 기술이 아직 보편적으로 활용되고 있지 못하다.
일 실시 예에 따라, 인공 지능을 이용한 스포츠 동영상 검색 방법 및 검색 시스템을 제안한다.
일 실시 예에 따른 스포츠 동영상 검색 방법은, 수집된 스포츠 동영상 데이터에서 장면별로 대표 화면을 선정하고, 선정된 대표 화면에 해당하는 적어도 하나의 특징 정보를 추출하여 각각의 대표 화면에 대응시킨 딥러닝 학습 모델을 구축하는 학습 모델 구축 단계; 상기 각각의 대표 화면과 특징 정보를, 상기 대표 화면의 시간 정보와 함께 색인하여 저장하는 색인 정보 구축 단계; 및 검색어를 입력받아, 입력된 검색어를 키워드로 하여 상기 색인 정보를 검색하고, 해당 색인 정보에 대응되는 대표 화면이 포함된 스포츠 동영상을 찾아 제공하는 검색 수행 단계를 포함한다.
상기 학습 모델 구축 단계는, 상기 스포츠 동영상 데이터를 구성하는 프레임 이미지의 변화 정도를 기준으로 장면을 구분하고, 각 장면에서 특징점이 가장 높은 프레임 이미지를 대표 화면으로 선정할 수 있다.
상기 특징 정보는, 상기 대표 화면을 묘사하는 설명 정보, 대표 화면에 대응되는 스포츠 종목 정보, 대표 화면에 포함된 인물에 관한 정보 중 적어도 어느 하나를 포함할 수 있다.
상기 학습 모델 구축 단계는, 딥 러닝 학습 엔진을 이용하여 상기 대표 화면에서의 인물의 동작을 분석하여 묘사한 캡션 정보를 추출하여 설명 정보를 생성하거나, 이 설명 정보에 대응되는 스포츠 종목 정보를 생성할 수 있다.
상기 대표 화면의 시간 정보는, 상기 대표 화면의 재생 시작 시간을 포함하여, 상기 검색 결과의 재생시 대표 화면의 위치에서부터 재생되도록 할 수 있다.
상기 대표 화면에 대응되는 스포츠 종목 정보가, 인접한 대표 영상에서 동일하게 생성되면 이를 하나로 병합하여, 상기 대표 화면의 재생 시작 시간 정보와 함께 색인될 수 있다.
상기 검색 수행 단계는, 하나의 스포츠 동영상 내에서 검색된 대표 영상이 속한 장면들을 연결하여, 이어보기로 제공될 수 있다.
다른 실시 예에 따른 스포츠 동영상 검색 시스템은, 수집된 스포츠 동영상 데이터에서 장면별로 대표 화면을 선정하고, 선정된 대표 화면에 해당하는 적어도 하나의 특징 정보를 추출하여 각각의 대표 화면에 대응시킨 딥러닝 학습 모델을 구축하는 학습 모델 구축부; 상기 각각의 대표 화면과 특징 정보를, 상기 대표 화면의 시간 정보와 함께 색인하여 저장하는 색인 정보 구축부; 및 검색어를 입력받아, 입력된 검색어를 키워드로 하여 상기 색인 정보를 검색하고, 해당 색인 정보에 대응되는 대표 화면이 포함된 스포츠 동영상을 찾아 제공하는 검색 수행부를 포함할 수 있다.
상기 학습 모델 구축부는, 상기 스포츠 동영상 데이터를 구성하는 프레임 이미지의 변화 정도를 기준으로 장면을 구분하고, 각 장면에서 특징점이 가장 높은 프레임 이미지를 대표 화면으로 선정할 수 있다.
상기 특징 정보는, 상기 대표 화면을 묘사하는 설명 정보, 대표 화면에 대응되는 스포츠 종목 정보, 대표 화면에 포함된 인물에 관한 정보 중 적어도 어느 하나를 포함할 수 있다.
상기 학습 모델 구축부는, 딥 러닝 학습 엔진을 이용하여 상기 대표 화면에서의 인물의 동작을 분석하여 묘사한 캡션 정보를 추출하여 설명 정보를 생성하거나, 이 설명 정보에 대응되는 스포츠 종목 정보를 생성할 수 있다.
상기 대표 화면의 시간 정보는, 상기 대표 화면의 재생 시작 시간을 포함하여, 상기 검색 결과의 재생시 대표 화면의 위치에서부터 재생되도록 할 수 있다.
일 실시 예에 따른 인공 지능을 이용한 스포츠 동영상 검색 방법 및 검색 시스템은 별도의 메타데이터를 수동으로 만들 필요가 없으므로 효율적이며, 인공 지능을 이용하여 높은 정확도와 빠른 검색 결과를 얻을 수 있다.
그리고, 동영상의 파일 이름과 메타 데이터를 이용하여 검색하는 경우 제한된 검색만 가능하였으나, 본 발명을 통해 스포츠 동영상에서 추출된 다양한 정보들, 예를 들어 스포츠 종목, 유명 운동 선수, 캡션들을 대상으로 사용자에게 동영상의 내용 검색 결과를 제공할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 스포츠 동영상 검색 방법의 흐름도,
도 2는 일 실시 예에 따른 학습 모델 구축 단계의 구체적인 흐름도,
도 3은 대표 화면 추출의 일 예를 도시한 도면,
도 4a 내지 도 4c는 학습 데이터에서 설명정보, 운동종목, 인물정보를 추출하는 일 예를 도시한 도면,
도 5는 일 실시 예에 따른 색인 정보 구축 단계의 구체적인 흐름도,
도 6은 일 실시 예에 따른 스포츠 종목 정보의 병합을 설명하기 위한 도면,
도 7은 스포츠 종목 검색 결과 화면의 일 예를 도시한 도면,
도 8은 유명 운동 선수의 검색 결과 화면의 일 예를 도시한 도면,
도 9a 및 도 9b는 야구에서의 동작 검색 결과 화면의 일 예를 도시한 도면,
도 10은 본 발명의 일 실시 예에 따른 스포츠 동영상 검색 시스템의 구성도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이며, 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.
이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.
그리고 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.
이하, 첨부 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다. 그러나 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다. 본 발명의 실시 예는 이 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공된다.
도 1은 본 발명의 일 실시 예에 따른 스포츠 동영상 검색 방법의 흐름도이다.
스포츠 동영상 검색 방법은 학습 모델 구축 단계(110), 색인 정보 구축 단계(120), 검색 수행단계(130)를 포함한다.
학습 모델 구축 단계(110)는, 수집된 스포츠 동영상 데이터에서 장면별로 대표 화면을 선정하고, 선정된 대표 화면에 해당하는 적어도 하나의 특징 정보를 추출하여 각각의 대표 화면에 대응시킨 딥러닝 학습 모델을 구축한다. 특징 정보는 일 예로, 대표 화면을 묘사하는 설명 정보, 대표 화면에 대응되는 스포츠 종목 정보, 대표 화면에 포함된 인물에 관한 정보 중 적어도 어느 하나를 포함할 수 있다.
색인 정보 구축 단계(120)는, 각각의 대표 화면과 특징 정보를 대표 화면의 시간 정보와 함께 색인하여 저장한다. 대표 화면의 시간 정보는, 대표 화면의 재생 시작 시간을 포함하여, 검색 결과의 재생시 대표 화면의 위치에서부터 재생되도록 한다. 그리고 대표 화면에 대응되는 스포츠 종목 정보가, 인접한 대표 영상에서 동일하게 생성되면 이를 하나로 병합하여, 대표 화면의 재생 시작 시간 정보와 함께 색인될 수 있다.
검색 수행 단계(130)는, 검색어를 입력받아, 입력된 검색어를 키워드로 하여 색인 정보를 검색하고, 해당 색인 정보에 대응되는 대표 화면이 포함된 스포츠 동영상을 찾아 제공한다. 그리고 하나의 스포츠 동영상 내에서 검색된 대표 영상이 속한 장면들을 연결하여, 이어보기로 제공될 수 있다.
도 2는 일 실시 예에 따른 학습 모델 구축 단계의 구체적인 흐름도이다.
학습모델을 구축하기 위해 먼저 스포츠 동영상을 수집한다(210). 그리고 수집된 동영상에 대표화면을 추출한다(220). 이를 위해 동영상을 장면 단위로 구간을 나누고 각 구간에서 대표화면을 추출한다. 장면은 동영상에서 일반적으로 말하는 샷(shot)에 대응될 수 있다.
스포츠 동영상 데이터는 그 인코딩 방식에 따라 프레임 레이트가 달라질 수 있으며, 다수의 프레임 이미지로 구성된다. 스포츠 동영상 데이터를 구성하는 프레임 이미지의 변화 정도를 기준으로 장면이나 샷을 구분하는데, 예를 들어 장면 또는 샷의 구분은, 프레임 이미지의 픽셀의 시간에 따른 변화 정도를 계산하여 임계치(threshold) 이상의 변화값을 갖는 경우 장면 또는 샷이 바뀐 것으로 판단할 수 있다. 임계치는 다양하게 설정할 수 있으며, 작게 설정하면 장면 또는 샷의 갯수가 많아지고 크게 설정하면 장면 또는 샷의 갯수가 적어지게 된다.
그리고, 각 장면에서 특징점이 가장 높은 프레임 이미지를 대표 화면으로 선정할 수 있다. 특징점은 프레임 이미지에서 추출된 선(edge)들의 합(sum)으로 이루어진 선명도로 정의된다. 선(edge)들의 합(sum)이 합이 클수록 프레임 이미지는 선명하다고 판단된다. 그래서, 장면에서 추출된 다수의 프레임 이미지들 중에서 선명도가 가장 높은 프레임 이미지를 추출하고 이 프레임 이미지를 대표 화면으로 삼는다.
다음으로 학습 데이터를 구축하기 위해, 대표 화면에서 특징 정보를 추출한다(230). 특징 정보는 일 예로, 대표 화면을 묘사하는 설명(캡션) 정보, 대표 화면에 대응되는 스포츠 종목 정보, 대표 화면에 포함된 인물에 관한 정보 중 적어도 어느 하나를 포함할 수 있다. 보다 구체적으로 딥 러닝 학습 엔진을 이용하여 대표 화면에서의 인물의 동작을 분석하여 묘사한 캡션 정보를 추출하여 설명 정보를 생성하거나, 이 설명 정보에 대응되는 스포츠 종목 정보를 생성할 수 있다. 그리고 운동 선수의 이름 정보도 생성할 수 있다. 이렇게 생성된 정보를 가지고 표 1과 같은 학습 데이터를 구축한다.
용도 딥러닝 학습데이터 딥러닝 학습모델
이미지의 설명(캡션) 대표화면, 대표화면 설명문 이미지 캡션 자동생성 학습모델
스포츠 종목 대표화면 설명문, 스포츠 종목 스포츠 종목 분류 학습모델
얼굴 인식을 통한 선수이름 유명 운동선수 이미지, 이름 유명 운동 선수 얼굴분로 학습모델
다음으로 이렇게 구축된 학습 데이터를 가지고 딥러닝 학습모델을 구축한다(240). 구축된 3가지 학습 데이터로부터 스포츠 동영상 검색에 적합한 3가지 용도의 학습모델을 구축하기 위하여 용도에 적합한 딥러닝 학습 엔진을 이용한다.
예를 들어 이미지 캡션의 경우 구글에서 공개된 알고리즘을 사용할 수 있고, 영어 및 한국어 문장 생성을 위해 이미지 캡션 한국어 문장 자동 생성 엔진을 이용하여 스포츠 이미지 설명을 위해 구축된 학습 데이터를 이용하여 학습 모델을 구축할 수 있다. 그리고 스포츠 종목 분류를 위하여 딥러닝 기반의 텍스트 분류 알고리즘을 이용하여 설명문과 종목 이름으로 구성된 표 2에 도시한 학습 데이터를 이용하여 스포츠 종목 분류 학습 모델을 생성할 수 있다.
설명문 종목
흰 옷을 입은 투수가 야구공을 받으려고 합니다. 야구
투수가 던진 야구공을 타자가 칩니다 야구
흰 옷을 입은 선수가 축구공을 향해 헤딩을 하려고 준비하고 있습니다 축구
축구장에서 흰 옷을 입은 선수가 추구공을 드리블하면서 상대편 선수를 제치려 합니다 축구
... ...
그리고 높은 얼굴 인식을 위하여 facenet, openface, insightface 등의 검증된 엔진을 사용하고, 보다 높은 얼굴 인식 학습모델을 구축하기 위해 전이학습을 사용할 수 있다. 전이학습은 기 구축된 얼굴 인식 학습모델에 추가적으로 구축된 학습 데이터를 이용하여 학습의 효율을 높이는 학습방법 중 하나이다.
도 3은 대표 화면 추출의 일 예를 도시한 도면이다.
도 3을 참조하면 총84장의 프레임 이미지로부터 4장의 대표 화면을 추출하였음을 알 수 있으며, 각 장면을 가장 잘 나타낼 수 있는 화면을 추출하였다. 즉 스포츠 동영상 데이터(310)는 다수의 프레임 이미지로 구성되는데, 이들 프레임 이미지에서 전술한 바와 같은 특징점 계산 등을 통해 각 장면별로 대표 화면(320)을 추출할 수 있다. 대표화면은 장면 당 하나 또는 그 이상일 수도 있으며, 대표 화면을 선정하는데 사용되는 이미지의 유사도의 임계값 또는 윈도우의 거리(유사도 검색에 사용되는 프레임 이미지의 장수) 등의 파라미터를 조정함으로써, 대표 화면의 장수를 변경할 수 있다.
도 4a 내지 도 4c는 학습 데이터에서 설명정보, 운동종목, 인물정보를 추출하는 일 예를 도시한 도면이다.
도 4a를 참조하면 야구 동영상에서의 대표 이미지 각각(410)에서 인물의 행동이나 상황을 분석하여, 장면을 설명하는 설명정보와 운동종목 정보(420)를 추출하는 것을 알 수 있다. 마찬가지로 도 4b를 참조하면, 축구 동영상에서의 대표 이미지 각각(430)에서 인물의 행동이나 상황을 분석하여, 장면을 설명하는 설명정보와 운동종목 정보(440)를 추출하는 것을 알 수 있다. 도 4c에서는 대표 이미지에 포함된 인물(450)을 분석하여 운동 선수의 이름 정보(460)를 추출하는 것을 알 수 있다. 경우에 따라 도 4a와 도 4b의 학습 데이터는 같이 구축할 수 있고, 학습할 때 용도에 따라 분리하여 사용될 수 있다.
도 5는 일 실시 예에 따른 색인 정보 구축 단계의 구체적인 흐름도이다.
스포츠 동영상을 수집하고(510) 대표 화면을 추출한 후(520), 대표 화면의 시간정보를 추출한다(530). 이와 함께 대표 화면에서 캡션 정보, 종목 정보, 인물 정보와 같은 특징 정보를 생성한다(540). 이렇게 생성된 특징 정보를 대표 화면의 시간 정보와 함께 색인하여 저장함으로서 색인 데이터베이스를 구축한다(550). 즉, 스포츠 동영상에서 추출된 대표 화면 및 시간 정보, 대표화면에서 추출된 이미지 캡션, 유명 운동 선수 얼굴 인식 정보, 그리고 스포츠 종목 정보 등의 모든 정보가 색인 데이터베이스의 입력 정보로 이용된다. 대표 화면의 시간 정보는, 대표 화면의 재생 시작 시간을 포함하여, 검색 결과의 재생시 대표 화면의 위치로 바로 이동하여 재생되도록 한다.
추출된 스포츠 동영상의 대표 화면에서 해당 화면의 내용을 설명하는 캡션을 자동 생성하기 위해, 학습 단계에서 스포츠 동영상에 특화되어 개발된 스포츠 동영상 이미지 자동 캡션생성 학습 모델을 이용한다. 생성된 캡션에는 각각 확률 정보가 같이 부착되어 있는데, 이 확률 정보가 설정된 임계값(threshold) 이상인 경우에만 캡션을 사용하여 오류를 방지한다. 생성된 캡션 정보는 원본 동영상, 추출된 대표화면, 동기화된 시간 정보와 같이 색인 데이터베이스에 저장된다.
추출된 스포츠 동영상의 대표 화면에서 유명 운동 선수의 얼굴을 인식하기 위해, 학습 단계에서 유명 운동 선수에 특화되어 개발된 유명 운동 선수 얼굴인식 학습 모델을 이용한다. 추출된 유명 운동 선수 정보는 원본 동영상, 추출된 대표화면, 동기화된 시간 정보와 같이 색인 데이터베이스에 저장된다.
대표 화면의 캡션을 이용하여 스포츠 종목을 인식하기 위해, 학습 단계에서 개발된 스포츠 종목 분류 학습모델을 이용한다. 대표 화면에서 추출된 캡션을 사용하여 스포츠 종목을 인식하는 과정으로 모든 캡션의 스포츠 정보를 추출한 후, 앞뒤 정보를 이용하여 스포츠 종목 정보를 병합할 수도 있다.
도 6은 일 실시 예에 따른 스포츠 종목 정보의 병합을 설명하기 위한 도면이다.
도 6에 도시된 바와 같이, 대표 화면에 대응되는 스포츠 종목 정보가, 인접한 대표 영상에서 동일하게 생성되면 이를 하나로 병합하여, 대표 화면의 재생 시작 시간 정보와 함께 색인될 수 있다. 병합할 때, 시작 시작과 끝 시간 정보를 조정하여 재생할 때 사용할 수 있도록 한다. 이렇게 생성된 스포츠 종목 정보는 원본 동영상, 추출된 대표화면, 동기화된 시간 정보와 같이 색인 데이터베이스에 저장된다.
도 7은 스포츠 종목 검색 결과 화면의 일 예를 도시한 도면이다.
스포츠 동영상들은 종목 별로 색인된 상태이기 때문에, 스포츠 동영상을 도 7에 도시된 바와 같이 종목 별로 분류하여 사용자에게 제공할 수 있다. 스포츠 뉴스 동영상의 경우, 여러 종목의 스포츠 종목을 포함하고 있는데, 동영상의 스포츠 종목마다 시작 시간과 끝 시간정보가 같이 저장되어 있기 때문에 원하는 스포츠 종목을 그 위치에서 바로 재생하여 볼 수 있다.
도 8은 유명 운동 선수의 검색 결과 화면의 일 예를 도시한 도면이다.
스포츠 동영상에서 유명 운동 선수가 출현한 장면 및 시간 정보가 같이 색인되기 때문에, 인물에 대한 키워드 검색이 가능하며 운동 선수가 출현한 장면을 바로 재생하여 볼 수 있다. 도 8을 참조하면 ‘류현진’에 대한 검색 결과 화면 예시를 볼 수 있으며, 검색 결과 항목을 클릭할 경우, 해당 장면부터 재생하여 볼 수 있다.
도 9a 및 도 9b는 야구에서의 동작 검색 결과 화면의 일 예를 도시한 도면이다.
스포츠 동영상의 대표 화면들의 캡션이 모두 색인되어 있기 때문에, 키워드 검색을 통하여 각 스포츠의 대표적인 동작을 확인할 수 있다. 도 9a를 참조하면 ‘투수가 야구공을 던지는 장면’으로 검색하였을 때의 결과 화면의 예를, 도 9b를 참조하면 ‘타자가 야구공을 치는 장면’으로 검색했을 때의 결과 화면의 예를 볼 수 있다. 검색 결과 항목을 클릭할 경우, 투수가 공을 던지는 장면이나 또는 타자가 야구공을 치는 장면부터 재생하여 볼 수 있다.
한편, 스포츠 종목과 유명 운동 선수, 스포츠 동작의 검색 방식을 모두 이용할 경우, ‘류현진 선수가 야구공을 던지는 장면’과 같은 복합 질의에 대한 검색도 가능하다. ‘류현진’, ‘야구공을 던지는’ 등과 같은 정보가 정보가 이미 색인 데이터베이스에 저장된 상태이기 때문이기 전체 동영상을 대상으로 해당 장면을 찾아서 재생하여 볼 수 있다.
그리고 지금까지의 검색이 전체 동영상을 대상으로 하였다고 한다면, 단일 동영상을 대상으로 좀 더 특화된 검색 방식을 제공할 수 있다. 예를 들어 ‘류현진 선수’와 같은 질의의 경우, 단일 동영상 내에서 류현진 선수가 출현하는 모든 장면들을 찾아볼 수 있다. 검색된 결과의 특정 장면만을 재생하여 볼 수도 있고, 검색된 모든 결과를 이어보기 형태로 보는 것도 가능하다. 이 장면들만을 모아서 하나의 파일로 출력할 수도 있다.
도 10은 본 발명의 일 실시 예에 따른 스포츠 동영상 검색 시스템의 구성도이다.
스포츠 동영상 검색 시스템은 학습모델 구축부(1010), 색인정보 구축부(1020) 및 검색 수행부(1030)를 포함한다. 학습모델 구축부(1010)는 수집된 스포츠 동영상 데이터에서 장면별로 대표 화면을 선정하고, 선정된 대표 화면에 해당하는 적어도 하나의 특징 정보를 추출하여 각각의 대표 화면에 대응시킨 딥러닝 학습 모델을 구축한다. 스포츠 동영상 데이터를 구성하는 프레임 이미지의 변화 정도를 기준으로 장면을 구분하고, 각 장면에서 특징점이 가장 높은 프레임 이미지를 대표 화면으로 선정할 수 있음은 전술한 바와 같다.
색인정보 구축부(1020)는 각각의 대표 화면과 특징 정보를, 대표 화면의 시간 정보와 함께 색인하여 저장한다. 대표 화면의 시간 정보는, 대표 화면의 재생 시작 시간을 포함하여, 검색 결과의 재생시 대표 화면의 위치에서부터 재생되도록 한다. 그리고 특징 정보는, 대표 화면을 묘사하는 설명 정보, 대표 화면에 대응되는 스포츠 종목 정보, 대표 화면에 포함된 인물에 관한 정보 중 적어도 어느 하나를 포함할 수 있음은 전술한 바와 같다.
검색 수행부(1030)는 검색어를 입력받아, 입력된 검색어를 키워드로 하여 색인 정보를 검색하고, 해당 색인 정보에 대응되는 대표 화면이 포함된 스포츠 동영상을 찾아 제공한다.
한편 본 발명의 실시 예에서는 스포츠 동영상의 검색을 위주로 설명하였으나, 다양한 종류의 동영상의 검색에도 적용될 수 있고 그 용도가 본 발명의 실시 예에 한정되지는 않는다.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (12)

  1. 수집된 스포츠 동영상 데이터에서 장면별로 대표 화면을 선정하고, 선정된 대표 화면에 해당하는 적어도 하나의 특징 정보를 추출하여 각각의 대표 화면에 대응시킨 딥러닝 학습 모델을 구축하는 학습 모델 구축 단계;
    상기 각각의 대표 화면과 특징 정보를, 상기 대표 화면의 시간 정보와 함께 색인하여 저장하는 색인 정보 구축 단계; 및
    검색어를 입력받아, 입력된 검색어를 키워드로 하여 상기 색인 정보를 검색하고, 해당 색인 정보에 대응되는 대표 화면이 포함된 스포츠 동영상을 찾아 제공하는 검색 수행 단계를 포함하는 것을 특징으로 하는 스포츠 동영상 검색 방법.
  2. 제 1 항에 있어서, 상기 학습 모델 구축 단계는,
    상기 스포츠 동영상 데이터를 구성하는 프레임 이미지의 변화 정도를 기준으로 장면을 구분하고, 각 장면에서 특징점이 가장 높은 프레임 이미지를 대표 화면으로 선정하는 것을 특징으로 하는 스포츠 동영상 검색 방법.
  3. 제 1 항에 있어서,
    상기 특징 정보는, 상기 대표 화면을 묘사하는 설명 정보, 대표 화면에 대응되는 스포츠 종목 정보, 대표 화면에 포함된 인물에 관한 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 스포츠 동영상 검색 방법.
  4. 제 3 항에 있어서, 상기 학습 모델 구축 단계는,
    딥 러닝 학습 엔진을 이용하여 상기 대표 화면에서의 인물의 동작을 분석하여 묘사한 캡션 정보를 추출하여 설명 정보를 생성하거나, 이 설명 정보에 대응되는 스포츠 종목 정보를 생성하는 것을 특징으로 하는 스포츠 동영상 검색 방법.
  5. 제 1 항에 있어서,
    상기 대표 화면의 시간 정보는, 상기 대표 화면의 재생 시작 시간을 포함하여, 상기 검색 결과의 재생시 대표 화면의 위치에서부터 재생되도록 하는 것을 특징으로 하는 스포츠 동영상 검색 방법.
  6. 제 3 항에 있어서,
    상기 대표 화면에 대응되는 스포츠 종목 정보가, 인접한 대표 영상에서 동일하게 생성되면 이를 하나로 병합하여, 상기 대표 화면의 재생 시작 시간 정보와 함께 색인되는 것을 특징으로 하는 스포츠 동영상 검색 방법.
  7. 제 1 항에 있어서, 상기 검색 수행 단계는
    하나의 스포츠 동영상 내에서 검색된 대표 영상이 속한 장면들을 연결하여, 이어보기로 제공되는 것을 특징으로 하는 스포츠 동영상 검색 방법.
  8. 수집된 스포츠 동영상 데이터에서 장면별로 대표 화면을 선정하고, 선정된 대표 화면에 해당하는 적어도 하나의 특징 정보를 추출하여 각각의 대표 화면에 대응시킨 딥러닝 학습 모델을 구축하는 학습 모델 구축부;
    상기 각각의 대표 화면과 특징 정보를, 상기 대표 화면의 시간 정보와 함께 색인하여 저장하는 색인 정보 구축부; 및
    검색어를 입력받아, 입력된 검색어를 키워드로 하여 상기 색인 정보를 검색하고, 해당 색인 정보에 대응되는 대표 화면이 포함된 스포츠 동영상을 찾아 제공하는 검색 수행부를 포함하는 것을 특징으로 하는 스포츠 동영상 검색 시스템.
  9. 제 8 항에 있어서, 상기 학습 모델 구축부는,
    상기 스포츠 동영상 데이터를 구성하는 프레임 이미지의 변화 정도를 기준으로 장면을 구분하고, 각 장면에서 특징점이 가장 높은 프레임 이미지를 대표 화면으로 선정하는 것을 특징으로 하는 스포츠 동영상 검색 시스템.
  10. 제 8 항에 있어서,
    상기 특징 정보는, 상기 대표 화면을 묘사하는 설명 정보, 대표 화면에 대응되는 스포츠 종목 정보, 대표 화면에 포함된 인물에 관한 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 스포츠 동영상 검색 시스템.
  11. 제 10 항에 있어서, 상기 학습 모델 구축부는,
    딥 러닝 학습 엔진을 이용하여 상기 대표 화면에서의 인물의 동작을 분석하여 묘사한 캡션 정보를 추출하여 설명 정보를 생성하거나, 이 설명 정보에 대응되는 스포츠 종목 정보를 생성하는 것을 특징으로 하는 스포츠 동영상 검색 시스템.
  12. 제 8 항에 있어서,
    상기 대표 화면의 시간 정보는, 상기 대표 화면의 재생 시작 시간을 포함하여, 상기 검색 결과의 재생시 대표 화면의 위치에서부터 재생되도록 하는 것을 특징으로 하는 스포츠 동영상 검색 시스템.
KR1020200050489A 2020-04-27 2020-04-27 인공 지능을 이용한 스포츠 동영상 검색 방법 및 검색 시스템 KR20210132300A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200050489A KR20210132300A (ko) 2020-04-27 2020-04-27 인공 지능을 이용한 스포츠 동영상 검색 방법 및 검색 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200050489A KR20210132300A (ko) 2020-04-27 2020-04-27 인공 지능을 이용한 스포츠 동영상 검색 방법 및 검색 시스템

Publications (1)

Publication Number Publication Date
KR20210132300A true KR20210132300A (ko) 2021-11-04

Family

ID=78521653

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200050489A KR20210132300A (ko) 2020-04-27 2020-04-27 인공 지능을 이용한 스포츠 동영상 검색 방법 및 검색 시스템

Country Status (1)

Country Link
KR (1) KR20210132300A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102434880B1 (ko) * 2022-02-10 2022-08-22 김국영 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템
WO2024039047A1 (ko) * 2022-08-16 2024-02-22 주식회사 맨드언맨드 영상의 시맨틱 로그 생성 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102434880B1 (ko) * 2022-02-10 2022-08-22 김국영 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템
WO2024039047A1 (ko) * 2022-08-16 2024-02-22 주식회사 맨드언맨드 영상의 시맨틱 로그 생성 방법

Similar Documents

Publication Publication Date Title
Gu et al. Ava: A video dataset of spatio-temporally localized atomic visual actions
Qi et al. Sports video captioning via attentive motion representation and group relationship modeling
Xu et al. Using webcast text for semantic event detection in broadcast sports video
CN102547141B (zh) 基于体育赛事视频的视频数据筛选方法及装置
CN102073864B (zh) 四层结构的体育视频中足球项目检测系统及实现
Hurault et al. Self-supervised small soccer player detection and tracking
Markatopoulou et al. ITI-CERTH participation to TRECVID 2013.
Awad et al. Trecvid semantic indexing of video: A 6-year retrospective
US8068678B2 (en) Electronic apparatus and image processing method
KR20180093582A (ko) 엔드투엔드 학습에 기반한 영상 이벤트 구간 인덱싱 방법 및 장치
Le et al. NII-HITACHI-UIT at TRECVID 2016.
KR20210132300A (ko) 인공 지능을 이용한 스포츠 동영상 검색 방법 및 검색 시스템
CN111711771B (zh) 一种图像选取方法、装置、电子设备及存储介质
Bhalla et al. A multimodal approach for automatic cricket video summarization
US20240364960A1 (en) Computerized method for audiovisual delinearization
Dale et al. Multi-video browsing and summarization
Qi et al. Sports video captioning by attentive motion representation based hierarchical recurrent neural networks
US8131773B2 (en) Search information managing for moving image contents
Gaikwad et al. Video summarization using deep learning for cricket highlights generation
CN111339359B (zh) 一种基于九宫格的视频缩略图自动生成方法
Lei et al. User video summarization based on joint visual and semantic affinity graph
Bertini et al. Highlights modeling and detection in sports videos
Zhang et al. Text Based Video Retrieval among Video Clips
Sanabria et al. Profiling actions for sport video summarization: An attention signal analysis
JP2007513398A (ja) プログラムのハイレベル構造を特定する方法及び装置

Legal Events

Date Code Title Description
E601 Decision to refuse application