KR20230032426A - 음성 인식을 기반으로 경기 영상으로부터 타겟 영상을 검출하기 위한 컴퓨터 시스템 및 그의 방법 - Google Patents

음성 인식을 기반으로 경기 영상으로부터 타겟 영상을 검출하기 위한 컴퓨터 시스템 및 그의 방법 Download PDF

Info

Publication number
KR20230032426A
KR20230032426A KR1020210115248A KR20210115248A KR20230032426A KR 20230032426 A KR20230032426 A KR 20230032426A KR 1020210115248 A KR1020210115248 A KR 1020210115248A KR 20210115248 A KR20210115248 A KR 20210115248A KR 20230032426 A KR20230032426 A KR 20230032426A
Authority
KR
South Korea
Prior art keywords
image
text
partial image
game
computer system
Prior art date
Application number
KR1020210115248A
Other languages
English (en)
Other versions
KR102601285B1 (ko
Inventor
백준봉
박상근
이동호
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to KR1020210115248A priority Critical patent/KR102601285B1/ko
Priority to US17/820,916 priority patent/US20230069720A1/en
Publication of KR20230032426A publication Critical patent/KR20230032426A/ko
Application granted granted Critical
Publication of KR102601285B1 publication Critical patent/KR102601285B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

다양한 실시예들은 음성 인식을 기반으로 경기 영상으로부터 타겟 영상을 검출하기 위한 컴퓨터 시스템 및 그의 방법에 관한 것으로, 스포츠 경기 중 경기 영상에 대응하는 중계 음성을 텍스트로 변환하고, 텍스트를 기반으로, 경기 영상으로부터 미리 정해진 이벤트와 관련된 타겟 영상을 검출하도록 구성될 수 있다.

Description

음성 인식을 기반으로 경기 영상으로부터 타겟 영상을 검출하기 위한 컴퓨터 시스템 및 그의 방법{COMPUTER SYSTEM FOR DETECTING TARGET VIDEO FROM SPORTS PLAY VIDEO BASED ON VOICE RECOGNITION AND METHOD OF THE SAME}
다양한 실시예들은 음성 인식을 기반으로 경기 영상으로부터 타겟 영상을 검출하기 위한 컴퓨터 시스템 및 그의 방법에 관한 것이다.
일반적으로, 스포츠 경기에 대한 경기 영상이 제공되고 있다. 그런데, 스포츠 경기 중에 발생된 특정 이벤트에 대한 타겟 영상을 원하는 사용자 요구들이 있다. 이로 인해, 액션 인식을 기반으로, 경기 영상으로부터 타겟 영상을 검출하고, 이를 사용자에게 제공하고 있다. 그러나, 이와 같이 검출되는 타겟 영상은 정확도가 낮은 문제점이 있다.
다양한 실시예들은, 높은 정확도로 경기 영상으로부터 타겟 영상을 검출할 수 있는 컴퓨터 시스템 및 그의 방법을 제공한다.
다양한 실시예들은, 음성 인식을 기반으로 경기 영상으로부터 타겟 영상을 검출할 수 있는 컴퓨터 시스템 및 그의 방법을 제공한다.
다양한 실시예들에 따른 컴퓨터 시스템의 방법은, 스포츠 경기 중 경기 영상에 대응하는 중계 음성을 텍스트로 변환하는 단계, 및 상기 텍스트를 기반으로, 상기 경기 영상으로부터 미리 정해진 이벤트와 관련된 타겟 영상을 검출하는 단계를 포함할 수 있다.
다양한 실시예들에 따른 컴퓨터 프로그램은, 상기 방법을 상기 컴퓨터 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독 가능한 기록 매체에 저장될 수 있다.
다양한 실시예들에 따른 비-일시적인 컴퓨터 판독 가능한 기록 매체는, 상기 방법을 상기 컴퓨터 시스템에 실행시키기 위한 프로그램이 기록되어 있다.
다양한 실시예들에 따른 컴퓨터 시스템은, 메모리, 및 상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성되는 프로세서를 포함하고, 상기 프로세서는, 스포츠 경기 중 경기 영상에 대응하는 중계 음성을 텍스트로 변환하고, 상기 텍스트를 기반으로, 상기 경기 영상으로부터 미리 정해진 이벤트와 관련된 타겟 영상을 검출하도록 구성될 수 있다.
다양한 실시예들에 따르면, 높은 정확도로 경기 영상으로부터 타겟 영상이 검출될 수 있다. 즉, 컴퓨터 시스템이 미리 정해진 이벤트에 대한 타겟 영상을 검출하는 데 있어서, 음성 인식을 이용함으로써, 액션 인식만을 이용하는 것보다, 높은 정확도를 나타낼 수 있다. 이 때, 컴퓨터 시스템이 미리 정해진 이벤트에 대한 타겟 영상을 검출하는 데 있어서, 음성 인식과 액션 인식의 조합을 이용함으로써, 더 높은 정확도를 나타낼 수 있다. 이에 따라, 타겟 영상을 원하는 사용자 요구들이 보다 높은 만족도로 충족될 것이다.
도 1은 다양한 실시예들에 따른 컴퓨터 시스템의 구성을 도시하는 도면이다.
도 2는 제 1 실시예에 따른 컴퓨터 시스템의 프로세서의 세부 구성을 도시하는 도면이다.
도 3은 제 2 실시예 및 제 3 실시예에 따른 컴퓨터 시스템의 프로세서의 세부 구성을 도시하는 도면이다.
도 4는 제 1 실시예에 따른 컴퓨터 시스템의 방법을 도시하는 도면이다.
도 5는 제 2 실시예에 따른 컴퓨터 시스템의 방법을 도시하는 도면이다.
도 6은 제 3 실시예에 따른 컴퓨터 시스템의 방법을 도시하는 도면이다.
이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다.
본 문서에서, '이벤트'라는 용어는 스포츠 경기 중 발생되는 동작 또는 사건을 의미할 수 있다. 예를 들면, 스포츠 경기에는, 야구, 축구, 배구, 골프 등이 있을 수 있다. 일 예로, 스포츠 경기가 야구인 경우, 이벤트는 호수비, 투구, 홈런, 안타, 또는 득점 중 적어도 하나를 포함할 수 있다. 다른 예로, 스포츠 경기가 축구인 경우, 이벤트는 호수비, 득점, 또는 슈팅 중 적어도 하나를 포함할 수 있다.
본 문서에서, '경기 영상'은 스포츠 경기를 중계하는 영상 데이터를 의미할 수 있다. 본 문서에서, '타겟 영상'은 경기 영상으로부터 생성되며, 적어도 하나의 이벤트와 각각 연관되는 적어도 하나의 단위 영상으로 이루어질 수 있다. 본 문서에서, '중계 음성'스포츠 경기에 대한 실시간 상황을 중계하는 음성 신호를 의미할 수 있다. 예를 들면, 중계 음성은 진행자 또는 해설자 중 적어도 하나의 음성 신호를 포함할 수 있다. 본 문서에서, '텍스트 중계 데이터'는 스포츠 경기에 대한 실시간 상황을 중계하는 텍스트 데이터를 의미할 수 있다. 여기서, 텍스트 중계 데이터는 이벤트들에 대한 내역을 나타내며, 예컨대 각 이벤트에 대한 식별 정보 및 실제 시점을 포함할 수 있다.
도 1은 다양한 실시예들에 따른 컴퓨터 시스템(100)의 구성을 도시하는 도면이다.
도 1을 참조하면, 다양한 실시예들의 컴퓨터 시스템(100)은 통신 모듈(110), 입력 모듈(120), 출력 모듈(130), 메모리(140), 또는 프로세서(150) 중 적어도 하나를 포함할 수 있다. 어떤 실시예들에서, 컴퓨터 시스템(100)의 구성 요소들 중 적어도 하나가 제거될 수 있으며, 적어도 하나의 다른 구성 요소가 추가될 수 있다. 어떤 실시예들에서, 컴퓨터 시스템(100)의 구성 요소들 중 적어도 두 개가 하나의 통합된 회로로 구현될 수 있다. 이 때 컴퓨터 시스템(100)은 적어도 하나의 장치로 이루어지며, 각 장치는, 예컨대 서버(server), 전자 장치(electronic device), 위성 또는 기지국 중 하나일 수 있다. 예를 들면, 전자 장치는 스마트폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(personal digital assistants), PMP(portable multimedia player), 태블릿 PC, 게임 콘솔(game console), 웨어러블 디바이스(wearable device), IoT(internet of things) 디바이스, 가전 기기, 의료 기기, 또는 로봇(robot) 중 적어도 하나를 포함할 수 있다. 어떤 실시예들에서, 컴퓨터 시스템(100)이 복수의 장치들을 포함하는 경우, 컴퓨터 시스템(100)의 구성 요소들은 장치들 중 하나에 구성되거나, 장치들 중 적어도 두 개에 분산되어 구성될 수 있다.
통신 모듈(110)은 컴퓨터 시스템(100)에서 외부 시스템(180)과 통신을 수행할 수 있다. 통신 모듈(110)은 컴퓨터 시스템(100)과 외부 시스템(180) 간 통신 채널을 수립하고, 통신 채널을 통해, 외부 시스템(180)과 통신을 수행할 수 있다. 통신 모듈(110)은 유선 통신 모듈 또는 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 유선 통신 모듈은 외부 시스템(180)과 유선으로 연결되어, 유선으로 통신할 수 있다. 무선 통신 모듈은 근거리 통신 모듈 또는 원거리 통신 모듈 중 적어도 하나를 포함할 수 있다. 근거리 통신 모듈은 외부 시스템(180) 근거리 통신 방식으로 통신할 수 있다. 예를 들면, 근거리 통신 방식은, 블루투스(Bluetooth), 와이파이 다이렉트(WiFi direct), 또는 적외선 통신(IrDA; infrared data association) 중 적어도 하나를 포함할 수 있다. 원거리 통신 모듈은 외부 시스템(180)과 원거리 통신 방식으로 통신할 수 있다. 여기서, 원거리 통신 모듈은 네트워크(190)를 통해 외부 시스템(180)과 통신할 수 있다. 예를 들면, 네트워크(190)는 셀룰러 네트워크, 인터넷, 또는 LAN(local area network)이나 WAN(wide area network)과 같은 컴퓨터 네트워크 중 적어도 하나를 포함할 수 있다. 이 때 외부 시스템(180)은 적어도 하나의 장치로 이루어지며, 각 장치는, 예컨대 서버, 전자 장치, 위성 또는 기지국 중 하나일 수 있다. 예를 들면, 전자 장치는 스마트폰, 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA, PMP, 태블릿 PC, 게임 콘솔, 웨어러블 디바이스, IoT 디바이스, 가전 기기, 의료 기기, 또는 로봇 중 적어도 하나를 포함할 수 있다.
입력 모듈(120)은 컴퓨터 시스템(100)의 적어도 하나의 구성 요소에 사용될 신호를 입력할 수 있다. 입력 모듈(120)은, 사용자가 컴퓨터 시스템(100)에 직접적으로 신호를 입력하도록 구성되는 입력 장치, 주변 환경을 감지하여 신호를 발생하도록 구성되는 센서 장치, 또는 영상을 촬영하여, 영상 데이터를 생성하도록 구성되는 카메라 모듈 중 적어도 하나를 포함할 수 있다. 예를 들면, 입력 장치는 마이크로폰(microphone), 마우스(mouse), 또는 키보드(keyboard) 중 적어도 하나를 포함할 수 있다. 어떤 실시예들에서, 센서 장치는 터치를 감지하도록 설정된 터치 회로(touch circuitry) 또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로 중 적어도 하나를 포함할 수 있다.
출력 모듈(130)은 정보를 출력할 수 있다. 출력 모듈(130)은 정보를 시각적으로 표시하도록 구성되는 표시 모듈 또는 정보를 청각적으로 재생하도록 구성되는 오디오 모듈 중 적어도 하나를 포함할 수 있다. 예를 들면, 표시 모듈은 디스플레이, 홀로그램 장치, 또는 프로젝터 중 적어도 하나를 포함할 수 있다. 일 예로, 표시 모듈은 입력 모듈(120)의 터치 회로 또는 센서 회로 중 적어도 하나와 조립되어, 터치 스크린으로 구현될 수 있다. 예를 들면, 오디오 모듈은 스피커 또는 리시버 중 적어도 하나를 포함할 수 있다.
메모리(140)는 컴퓨터 시스템(100)의 적어도 하나의 구성 요소에 의해 사용되는 다양한 데이터를 저장할 수 있다. 예를 들면, 메모리(140)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 하나를 포함할 수 있다. 데이터는 적어도 하나의 프로그램 및 이와 관련된 입력 데이터 또는 출력 데이터를 포함할 수 있다. 프로그램은 메모리(140)에 적어도 하나의 명령을 포함하는 소프트웨어로서 저장될 수 있으며, 예컨대 운영 체제, 미들웨어, 또는 어플리케이션 중 적어도 하나를 포함할 수 있다. 다양한 실시예들에 따르면, 메모리(140)는 미리 정해진 이벤트와 관련된 적어도 하나의 키워드를 저장할 수 있다.
프로세서(150)는 메모리(140)의 프로그램을 실행하여, 컴퓨터 시스템(100)의 적어도 하나의 구성 요소를 제어할 수 있다. 이를 통해, 프로세서(150)는 데이터 처리 또는 연산을 수행할 수 있다. 이 때 프로세서(150)는 메모리(140)에 저장된 명령을 실행할 수 있다. 다양한 실시예들에 따르면, 프로세서(150)는 음성 인식을 기반으로, 스포츠 경기에 대한 경기 영상으로부터 미리 정해진 이벤트와 관련된 타겟 영상을 검출할 수 있다. 이 때, 프로세서(150)는 스포츠 경기 중 경기 영상에 대응하는 중계 음성을 텍스트로 변환할 수 있다. 그리고, 프로세서(150)는 텍스트를 기반으로, 경기 영상으로부터 타겟 영상을 검출할 수 있다. 이를 위해, 프로세서(150)는 저장된 적어도 하나의 키워드를 이용하여, 텍스트를 분석할 수 있다. 일 실시예에 따르면, 프로세서(150)는 음성 인식만을 기반으로, 경기 영상으로부터 타겟 영상을 검출할 수 있다. 이러한 경우, 프로세서(150)는 도 2를 참조하여 후술되는 바와 같이 구성될 수 있다. 다른 실시예에 따르면, 프로세서(150)는 음성 인식뿐 아니라 모션 인식을 기반으로, 경기 영상으로부터 타겟 영상을 검출할 수 있다. 이러한 경우, 프로세서(150)는 도 3을 참조하여 후술되는 바와 같이 구성될 수 있다. 이를 통해, 프로세서(150)는 사용자를 위해 타겟 영상을 제공할 수 있다. 일 실시예에 따르면, 프로세서(150)는 타겟 영상을 개별적으로 제공할 수 있다. 다른 실시예들에 따르면, 프로세서(150)는 복수의 타겟 영상들을, 예컨대 하이라이트 영상으로 조합하여, 제공할 수 있다.
도 2는 제 1 실시예에 따른 컴퓨터 시스템(100)의 프로세서(150)의 세부 구성을 도시하는 도면이다.
도 2를 참조하면, 제 1 실시예의 프로세서(150)는 영상 검출 모듈(251), 음성 인식 모듈(253), 및 타겟 검증 모듈(257)을 포함할 수 있다. 도시되지는 않았으나, 프로세서(150)에 적어도 하나의 다른 구성 요소가 추가될 수 있다. 프로세서(150)의 구성 요소들 중 적어도 두 개가 하나의 통합된 회로로 구현될 수도 있다.
영상 검출 모듈(251)은 스포츠 경기 중 경기 영상으로부터 부분 영상을 검출할 수 있다. 구체적으로, 영상 검출 모듈(251)는 경기 영상으로부터 미리 정해진 시간 단위로 청크 영상들을 추출하면서, 청크 영상들 중 적어도 하나로 이루어지는 부분 영상을 생성할 수 있다. 여기서, 시간 단위는, 예컨대 1 분일 수 있다. 일 예로, 스포츠 경기가 야구인 경우, 영상 검출 모듈(251)은 아웃과 관련된 부분 영상을 검출할 수 있다. 이 때, 영상 검출 모듈(251)은 텍스트 중계 데이터를 기반으로, 경기 영상으로부터 부분 영상을 검출할 수 있다. 예를 들면, 영상 검출 모듈(251)은 청크 영상들의 각각에서 스코어 보드를 인식하여, 텍스트 중계 데이터와 청크 영상들을 매핑시키고, 텍스트 중계 데이터를 기반으로 결정되는 적어도 하나의 청크 영상을 부분 영상으로 생성할 수 있다.
음성 인식 모듈(253)은 부분 영상에 대응하는 중계 음성을 텍스트로 변환할 수 있다. 구체적으로, 음성 인식 모듈(253)은 부분 영상에 대응하는 중계 음성을 추출할 수 있다. 이 때, 부분 영상에 대응하는 오디오 신호는 중계 음성 외에도 관중의 환호 소리와 같은 노이즈 신호를 포함할 수 있으므로, 음성 인식 모듈(253)은 노이즈 신호를 제거하기 위한 노이즈 필터를 이용하여, 부분 영상에 대응하는 오디오 신호에서 중계 음성을 추출할 수 있다. 그리고, 음성 인식 모듈(253)은 중계 음성을 텍스트로 변환할 수 있다. 일 예로, 스포츠 경기가 야구인 경우, 음성 인식 모듈(253)은 아웃과 관련된 부분 영상에 대응하여, 진행자 또는 해설자 중 적어도 하나의 음성 신호를 텍스트로 변환할 수 있다. 예를 들면, 음성 인식 모듈(253)은 클로바 스피치 인식(clova speech recognition; CSR) 모델을 이용하여, 중계 음성을 텍스트로 변환할 수 있다. 여기서, 음성 인식 모듈(253)은 부정확한 발음 등에 대해서도 보다 정확하게 인식하기 위해, 스포츠 경기에 대한 용어들로 학습되어 있을 수 있다. 즉, 음성 인식 모듈(253)은 과거에 진행된 스포츠 경기의 중계 음성을 이용하여, 학습되어 있을 수 있다. 일 예로, 스포츠 경기가 야구인 경우, 음성 인식 모듈(253)은 다수의 아웃들의 각각과 관련된 복수의 부분 영상들의 중계 음성을 이용하여, 학습되어 있을 수 있다.
타겟 검증 모듈(257)은, 부분 영상이 미리 정해진 이벤트와 관련된 타겟 영상으로 적절한 지에 대해 검증할 수 있다. 이를 위해, 타겟 검증 모듈(257)은, 텍스트가 미리 정해진 개수의 키워드를 포함하는 지의 여부를 판단할 수 있다. 여기서, 미리 정해진 개수는 적어도 하나일 수 있다. 이 때, 키워드는 과거에 진행된 스포츠 경기에 대해 검출된 복수의 타겟 영상들에 대응하는 중계 음성으로부터 선정될 수 있다. 여기서, 미리 정해진 이벤트를 직접적으로 나타내지 않더라도, 과거의 타겟 영상들에 대응하여, 진행자 또는 해설자에 의해 자주 사용된 용어가 키워드로 선정될 수 있다. 일 예로, 스포츠 경기가 야구인 경우, 미리 정해진 이벤트는 호수비일 수 있다. 이러한 경우, 키워드는 일반 수비와 호수비가 명확하게 구분되도록, 선정될 수 있다. 키워드에는, 예컨대, '환상적인 수비', '나이스 캐치' 등이 포함될 수 있다. 그리고, 텍스트가 미리 정해진 개수의 키워드를 포함하면, 타겟 검증 모듈(257)은 부분 영상을 타겟 영상으로 검출할 수 있다. 한편, 텍스트가 미리 정해진 개수의 키워드를 포함하지 않으면, 타겟 검증 모듈(257)은 부분 영상을 제외시킬 수 있다. 일 예로, 미리 정해진 개수가 두 개일 수 있다. 이러한 경우, 텍스트가 두 개 이상의 키워드들을 포함하면, 타겟 검증 모듈(257)은 부분 영상을 타겟 영상으로 검출할 수 있다. 한편, 텍스트가 하나의 키워드만을 포함하는 경우, 타겟 검증 모듈(257)은 부분 영상을 제외시킬 수 있다.
도 3은 제 2 실시예 및 제 3 실시예에 따른 컴퓨터 시스템(100)의 프로세서(150)의 세부 구성을 도시하는 도면이다.
도 3을 참조하면, 제 2 실시예 및 제 3 실시예의 프로세서(150)는 영상 검출 모듈(351), 음성 인식 모듈(353), 액션 인식 모듈(355), 및 타겟 검증 모듈(357)을 포함할 수 있다. 도시되지는 않았으나, 프로세서(150)에 적어도 하나의 다른 구성 요소가 추가될 수 있다. 프로세서(150)의 구성 요소들 중 적어도 두 개가 하나의 통합된 회로로 구현될 수도 있다. 이 때, 제 2 실시예 및 제 3 실시예의 프로세서(150)의 영상 검출 모듈(351) 및 음성 인식 모듈(353)은 전술된 제 1 실시예의 프로세서(150)의 영상 검출 모듈(251) 및 음성 인식 모듈(253)과 실질적으로 유사하므로, 상세한 설명을 생략한다.
액션 인식 모듈(355)은 부분 영상에서 적어도 하나의 객체의 액션을 인식할 수 있다. 예를 들면, 객체는 사람 또는 사물 중 적어도 하나를 포함할 수 있다. 구체적으로, 액션 인식 모듈(355)은 부분 영상에서 각 객체를 식별하고, 객체의 액션을 추적할 수 있다. 예를 들면, 액션 인식 모듈(355)은 텐서플로 객체 검출(tensorflow object detection) 모델과 같은 인공지능(artificial intelligence; AI) 모듈 또는 룰베이스 알고리즘(rule-based algorithm)을 이용하여, 객체의 액션을 인식할 수 있다.
타겟 검증 모듈(357)은, 부분 영상이 미리 정해진 이벤트와 관련된 타겟 영상으로 적절한 지에 대해 검증할 수 있다. 이를 위해, 타겟 검증 모듈(357)은, 중계 음성으로부터 변환된 텍스트가 미리 정해진 개수의 키워드를 포함하는 지의 여부를 판단할 수 있다. 여기서, 미리 정해진 개수는 적어도 하나일 수 있다. 뿐만 아니라, 타겟 검증 모듈(357)은, 객체의 액션이 미리 정해진 모션에 부합하는 지의 여부를 판단할 수 있다. 제 2 실시예에 따르면, 텍스트가 미리 정해진 개수의 키워드를 포함하는 경우, 타겟 검증 모듈(357)은 객체의 액션이 미리 정해진 모션에 부합하는 지의 여부를 판단할 수 있다. 제 3 실시예에 따르면, 객체의 액션이 미리 정해진 모션에 부합하는 경우, 타겟 검증 모듈(357)은 텍스트가 미리 정해진 개수의 키워드를 포함하는 지의 여부를 판단할 수 있다. 이 때, 제 3 실시예에서의 미리 정해진 모션의 범위는 제 2 실시예에서의 미리 정해진 모션의 범위와 동일하거나, 다를 수 있다. 여기서, 제 3 실시예에서의 미리 정해진 모션의 범위는 상대적으로 러프하게(roughly) 정의되고, 제 2 실시예에서의 미리 정해진 모션의 범위는 상대적으로 정교하게 정의될 수 있다. 그리고, 텍스트가 미리 정해진 개수의 키워드를 포함하고, 액체의 액션이 미리 정해진 모션에 부합하면, 타겟 검증 모듈(357)은 부분 영상을 타겟 영상으로 검출할 수 있다. 한편, 텍스트가 미리 정해진 개수의 키워드를 포함하지 않거나, 액체의 액션이 미리 정해진 모션에 부합하지 않으면, 타겟 검증 모듈(357)은 부분 영상을 제외시킬 수 있다.
도 4는 제 1 실시예에 따른 컴퓨터 시스템(100)의 방법을 도시하는 도면이다. 제 1 실시예에 따르면, 컴퓨터 시스템(100)의 프로세서(150)는 도 2에 도시된 바와 같이 구성될 수 있다.
도 4를 참조하면, 제 1 실시예의 컴퓨터 시스템(100)은 410 단계에서, 스포츠 경기 중 경기 영상으로부터 부분 영상을 검출할 수 있다. 구체적으로, 프로세서(150)는 경기 영상으로부터 미리 정해진 시간 단위로 청크 영상들을 추출하면서, 청크 영상들 중 적어도 하나로 이루어지는 부분 영상을 생성할 수 있다. 여기서, 시간 단위는, 예컨대 1 분일 수 있다. 일 예로, 스포츠 경기가 야구인 경우, 프로세서(150)는 아웃과 관련된 부분 영상을 검출할 수 있다. 이 때, 프로세서(150)는 텍스트 중계 데이터를 기반으로, 경기 영상으로부터 부분 영상을 검출할 수 있다. 예를 들면, 프로세서(150)는 청크 영상들의 각각에서 스코어 보드를 인식하여, 텍스트 중계 데이터와 청크 영상들을 매핑시키고, 텍스트 중계 데이터를 기반으로 결정되는 적어도 하나의 청크 영상을 부분 영상으로 생성할 수 있다.
이어서, 컴퓨터 시스템(100)은 420 단계에서, 부분 영상에 대응하는 중계 음성을 텍스트로 변환할 수 있다. 구체적으로, 프로세서(150)는 부분 영상에 대응하는 중계 음성을 추출할 수 있다. 이 때, 부분 영상에 대응하는 오디오 신호는 중계 음성 외에도 관중의 환호 소리와 같은 노이즈 신호를 포함할 수 있으므로, 프로세서(150)는 노이즈 신호를 제거하기 위한 노이즈 필터를 이용하여, 부분 영상에 대응하는 오디오 신호에서 중계 음성을 추출할 수 있다. 그리고, 프로세서(150)는 중계 음성을 텍스트로 변환할 수 있다. 일 예로, 스포츠 경기가 야구인 경우, 프로세서(150)는 아웃과 관련된 부분 영상에 대응하여, 진행자 또는 해설자 중 적어도 하나의 음성 신호를 텍스트로 변환할 수 있다. 예를 들면, 프로세서(150)는 음성 인식 모듈(253)을 갖고, 음성 인식 모듈(253)은 클로바 스피치 인식 모델을 이용하여, 중계 음성을 텍스트로 변환할 수 있다. 여기서, 음성 인식 모듈(253)은 부정확한 발음 등에 대해서도 보다 정확하게 인식하기 위해, 스포츠 경기에 대한 용어들로 학습되어 있을 수 있다. 즉, 음성 인식 모듈(253)은 과거에 진행된 스포츠 경기의 중계 음성을 이용하여, 학습되어 있을 수 있다. 일 예로, 스포츠 경기가 야구인 경우, 음성 인식 모듈(253)은 다수의 아웃들의 각각과 관련된 복수의 부분 영상들의 중계 음성을 이용하여, 학습되어 있을 수 있다.
계속해서, 컴퓨터 시스템(100)은 430 단계에서, 부분 영상이 미리 정해진 이벤트와 관련된 타겟 영상으로 적절한 지에 대해 검증할 수 있다. 구체적으로, 프로세서(150)는, 텍스트가 미리 정해진 개수의 키워드를 포함하는 지의 여부를 판단할 수 있다. 여기서, 미리 정해진 개수는 적어도 하나일 수 있다. 이 때, 키워드는 메모리(140)에 미리 저장되어 있을 수 있다. 키워드는 과거에 진행된 스포츠 경기에 대해 검출된 복수의 타겟 영상들에 대응하는 중계 음성으로부터 선정될 수 있다. 여기서, 미리 정해진 이벤트를 직접적으로 나타내지 않더라도, 과거의 타겟 영상들에 대응하여, 진행자 또는 해설자에 의해 자주 사용된 용어가 키워드로 선정될 수 있다. 일 예로, 스포츠 경기가 야구인 경우, 미리 정해진 이벤트는 호수비일 수 있다. 이러한 경우, 키워드는 일반 수비와 호수비가 명확하게 구분되도록, 선정될 수 있다. 키워드에는, 예컨대, '환상적인 수비', '나이스 캐치' 등이 포함될 수 있다.
마지막으로, 430 단계에서 부분 영상이 타겟 영상으로 적절한 것으로 판단되면, 컴퓨터 시스템(100)은 440 단계에서, 부분 영상을 타겟 영상으로 검출할 수 있다. 구체적으로, 430 단계에서 텍스트가 미리 정해진 개수의 키워드를 포함하는 것으로 판단되면, 프로세서(150)는 부분 영상을 타겟 영상으로 검출할 수 있다. 이를 통해, 부분 영상에 대응하는 중계 음성이 미리 정해진 이벤트에 대한 내용을 포함하는 경우, 프로세서(150)가 부분 영상을 타겟 영상으로 검출할 수 있다. 한편, 430 단계에서 텍스트가 미리 정해진 개수의 키워드를 포함하지 않는 것으로 판단되면, 프로세서(150)는 부분 영상을 제외시킬 수 있다.
이러한 방식으로, 컴퓨터 시스템(100)은 적어도 하나의 타겟 영상을 검출하고, 사용자를 위해 타겟 영상을 제공할 수 있다. 일 실시예에 따르면, 프로세서(150)는 타겟 영상을 개별적으로 제공할 수 있다. 다른 실시예들에 따르면, 프로세서(150)는 복수의 타겟 영상들을, 예컨대 하이라이트 영상으로 조합하여, 제공할 수 있다.
도 5는 제 2 실시예에 따른 컴퓨터 시스템(100)의 방법을 도시하는 도면이다. 제 2 실시예에 따르면, 컴퓨터 시스템(100)의 프로세서(150)는 도 3에 도시된 바와 같이 구성될 수 있다.
도 5를 참조하면, 제 2 실시예의 컴퓨터 시스템(100)은 510 단계에서, 스포츠 경기 중 경기 영상으로부터 부분 영상을 검출할 수 있다. 다음으로, 컴퓨터 시스템(100)은 520 단계에서, 부분 영상에 대응하는 중계 음성을 텍스트로 변환할 수 있다. 다음으로, 컴퓨터 시스템(100)은 530 단계에서, 부분 영상이 미리 정해진 이벤트와 관련된 타겟 영상으로 적절한 지에 대해 검증할 수 있다. 구체적으로, 프로세서(150)는, 텍스트가 미리 정해진 개수의 키워드를 포함하는 지의 여부를 판단할 수 있다. 여기서, 제 2 실시예의 510 단계, 520 단계 및 530 단계는 제 1 실시예의 410 단계, 420 단계 및 430 단계와 실질적으로 유사하므로, 상세한 설명을 생략한다.
제 2 실시예에 따르면, 530 단계에서 부분 영상이 타겟 영상으로 적절한 것으로 판단되더라도, 컴퓨터 시스템(100)은, 부분 영상이 타겟 영상으로 적절한 지에 대해 재차 검증할 수 있다. 이는, 부분 영상에 대응하는 중계 음성이 현재의 부분 영상에 대한 내용이 아니라, 이전의 이벤트에 대한 내용을 포함하고 있을 수 있기 때문일 수 있다. 일 예로, 스포츠 경기가 야구이고, 미리 정해진 이벤트가 호수비인 경우, 중계 음성이 진행자 또는 해설자에 의한 이전의 호수비에 대한 내용을 포함할 수 있다.
구체적으로, 530 단계에서 부분 영상이 타겟 영상으로 적절한 것으로 판단되면, 컴퓨터 시스템(100)은 541 단계에서, 부분 영상에서 적어도 하나의 객체의 액션을 인식할 수 있다. 예를 들면, 객체는 사람 또는 사물 중 적어도 하나를 포함할 수 있다. 일 예로, 스포츠 경기가 야구인 경우, 프로세서(150)는 투수, 타자, 1루수, 2루수, 유격수, 3루수, 우익수, 중견수, 좌익수 중 적어도 하나의 액션을 각각 인식할 수 있다. 구체적으로, 프로세서(150)는 부분 영상에서 각 객체를 식별하고, 객체의 액션을 추적할 수 있다. 예를 들면, 프로세서(150)는 텐서플로 객체 검출 모델과 같은 인공지능 모듈 또는 룰베이스 알고리즘을 이용하여, 객체의 액션을 인식할 수 있다.
계속해서, 컴퓨터 시스템(100)은 543 단계에서, 부분 영상이 미리 정해진 이벤트와 관련된 타겟 영상으로 적절한 지에 대해 재차 검증할 수 있다. 구체적으로, 프로세서(150)는 객체의 액션이 미리 정해진 모션에 부합하는 지의 여부를 판단할 수 있다. 일 예로, 프로세서(150)는 객체들의 액션들이 조합이 미리 정해진 모션에 부합하는 지의 여부를 판단할 수 있다.
마지막으로, 543 단계에서 부분 영상이 타겟 영상으로 적절한 것으로 판단되면, 컴퓨터 시스템(100)은 545 단계에서 부분 영상을 타겟 영상으로 검출할 수 있다. 구체적으로, 543 단계에서 객체의 액션이 미리 정해진 모션에 부합하는 것으로 판단되면, 프로세서(150)는 부분 영상을 타겟 영상으로 검출할 수 있다. 이를 통해, 부분 영상에 대응하는 중계 음성이 미리 정해진 이벤트에 대한 내용을 포함하면서, 부분 영상에서 객체의 액션이 미리 정해진 이벤트와 관련된 모션을 나타내는 경우에만, 프로세서(150)가 부분 영상을 타겟 영상으로 검출할 수 있다.
한편, 530 단계에서 텍스트가 미리 정해진 개수의 키워드를 포함하지 않는 것으로 판단되면, 프로세서(150)는 부분 영상을 제외시킬 수 있다. 이를 통해, 부분 영상에 대응하는 중계 음성이 미리 정해진 이벤트에 대한 내용을 포함하지 않는 경우, 프로세서(150)가 부분 영상을 제외시킬 수 있다. 그리고, 543 단계에서 객체의 액션이 미리 정해진 모션에 부합하지 않는 것으로 판단되면, 프로세서(150)는 부분 영상을 제외시킬 수 있다. 이를 통해, 부분 영상에 대응하는 중계 음성이 현재의 부분 영상에 대한 내용이 아니라, 이전의 이벤트에 대한 내용을 포함하는 경우, 프로세서(150)가 부분 영상을 제외시킬 수 있다.
이러한 방식으로, 컴퓨터 시스템(100)은 적어도 하나의 타겟 영상을 검출하고, 사용자를 위해 타겟 영상을 제공할 수 있다. 일 실시예에 따르면, 프로세서(150)는 타겟 영상을 개별적으로 제공할 수 있다. 다른 실시예들에 따르면, 프로세서(150)는 복수의 타겟 영상들을, 예컨대 하이라이트 영상으로 조합하여, 제공할 수 있다.
도 6은 제 3 실시예에 따른 컴퓨터 시스템(100)의 방법을 도시하는 도면이다. 제 3 실시예에 따르면, 컴퓨터 시스템(100)의 프로세서(150)는 도 3에 도시된 바와 같이 구성될 수 있다.
도 6을 참조하면, 제 3 실시예의 컴퓨터 시스템(100)은 610 단계에서, 스포츠 경기 중 경기 영상으로부터 부분 영상을 검출할 수 있다. 여기서, 제 3 실시예의 610 단계는 제 1 실시예의 410 단계와 실질적으로 유사하므로, 상세한 설명을 생략한다.
제 3 실시예에 따르면, 컴퓨터 시스템(100)은, 다중적으로 부분 영상이 타겟 영상으로 적절한 지에 대해 재차 검증할 수 있다. 이는, 부분 영상에 대응하는 중계 음성이 현재의 부분 영상에 대한 내용이 아니라, 이전의 이벤트에 대한 내용을 포함하고 있을 수 있기 때문일 수 있다. 일 예로, 스포츠 경기가 야구이고, 미리 정해진 이벤트가 호수비인 경우, 중계 음성이 진행자 또는 해설자에 의한 이전의 호수비에 대한 내용을 포함할 수 있다.
구체적으로, 컴퓨터 시스템(100)은 621 단계에서, 부분 영상에서 적어도 하나의 객체의 액션을 인식할 수 있다. 예를 들면, 객체는 사람 또는 사물 중 적어도 하나를 포함할 수 있다. 일 예로, 스포츠 경기가 야구인 경우, 프로세서(150)는 투수, 타자, 1루수, 2루수, 유격수, 3루수, 우익수, 중견수, 좌익수 중 적어도 하나의 액션을 각각 인식할 수 있다. 구체적으로, 프로세서(150)는 부분 영상에서 각 객체를 식별하고, 객체의 액션을 추적할 수 있다. 예를 들면, 프로세서(150)는 텐서플로 객체 검출 모델과 같은 인공지능 모듈 또는 룰베이스 알고리즘을 이용하여, 객체의 액션을 인식할 수 있다.
이어서, 컴퓨터 시스템(100)은 623 단계에서, 부분 영상이 미리 정해진 이벤트와 관련된 타겟 영상으로 적절한 지에 대해 일차적으로 검증할 수 있다. 구체적으로, 프로세서(150)는 객체의 액션이 미리 정해진 모션에 부합하는 지의 여부를 판단할 수 있다. 일 예로, 프로세서(150)는 객체들의 액션들이 조합이 미리 정해진 모션에 부합하는 지의 여부를 판단할 수 있다. 이 때, 제 3 실시예에서의 미리 정해진 모션의 범위는 제 2 실시예에서의 미리 정해진 모션의 범위와 동일하거나, 다를 수 있다. 여기서, 제 3 실시예에서의 미리 정해진 모션의 범위는 상대적으로 러프하게 정의되고, 제 2 실시예에서의 미리 정해진 모션의 범위는 상대적으로 정교하게 정의될 수 있다.
계속해서, 623 단계에서 부분 영상이 타겟 영상으로 적절한 것으로 판단되면, 컴퓨터 시스템(100)은 625 단계에서, 부분 영상에 대응하는 중계 음성을 텍스트로 변환할 수 있다. 구체적으로, 623 단계에서 객체의 액션이 미리 정해진 모션에 부합하는 것으로 판단되면, 프로세서(150)는 부분 영상에 대응하는 중계 음성을 추출할 수 있다. 다음으로, 컴퓨터 시스템(100)은 630 단계에서, 부분 영상이 미리 정해진 이벤트와 관련된 타겟 영상으로 적절한 지에 대해 최종적으로 검증할 수 있다. 구체적으로, 프로세서(150)는, 텍스트가 미리 정해진 개수의 키워드를 포함하는 지의 여부를 판단할 수 있다. 여기서, 미리 정해진 개수는 적어도 하나일 수 있다. 여기서, 제 3 실시예의 625 단계 및 630 단계는 제 1 실시예의 420 단계 및 430 단계와 실질적으로 유사하므로, 상세한 설명을 생략한다.
마지막으로, 630 단계에서 부분 영상이 타겟 영상으로 적절한 것으로 판단되면, 컴퓨터 시스템(100)은 640 단계에서, 부분 영상을 타겟 영상으로 검출할 수 있다. 구체적으로, 630 단계에서 텍스트가 미리 정해진 개수의 키워드를 포함하는 것으로 판단되면, 프로세서(150)는 부분 영상을 타겟 영상으로 검출할 수 있다. 이를 통해, 부분 영상에 대응하는 중계 음성이 미리 정해진 이벤트에 대한 내용을 포함하면서, 부분 영상에서 객체의 액션이 미리 정해진 이벤트와 관련된 모션을 나타내는 경우에만, 프로세서(150)가 부분 영상을 타겟 영상으로 검출할 수 있다.
한편, 623 단계에서 객체의 액션이 미리 정해진 모션에 부합하지 않는 것으로 판단되면, 프로세서(150)는 부분 영상을 제외시킬 수 있다. 그리고, 630 단계에서 텍스트가 미리 정해진 개수의 키워드를 포함하지 않는 것으로 판단되면, 프로세서(150)는 부분 영상을 제외시킬 수 있다. 이를 통해, 부분 영상에 대응하는 중계 음성이 현재의 부분 영상에 대한 내용이 아니라, 이전의 이벤트에 대한 내용을 포함하는 경우, 프로세서(150)가 부분 영상을 제외시킬 수 있다.
이러한 방식으로, 컴퓨터 시스템(100)은 적어도 하나의 타겟 영상을 검출하고, 사용자를 위해 타겟 영상을 제공할 수 있다. 일 실시예에 따르면, 프로세서(150)는 타겟 영상을 개별적으로 제공할 수 있다. 다른 실시예들에 따르면, 프로세서(150)는 복수의 타겟 영상들을, 예컨대 하이라이트 영상으로 조합하여, 제공할 수 있다.
다양한 실시예들에 따르면, 높은 정확도로 경기 영상으로부터 타겟 영상이 검출될 수 있다. 즉, 컴퓨터 시스템(100)이 미리 정해진 이벤트에 대한 타겟 영상을 검출하는 데 있어서, 음성 인식을 이용함으로써, 액션 인식만을 이용하는 것보다, 높은 정확도를 나타낼 수 있다. 일 예로, 스포츠 경기가 야구이고, 미리 정해진 이벤트가 호수비인 경우, 호수비는 모든 사람들이 호수비로 인정할 만한 수비를 나타내고, 일반 수비는 호수비로 포함되지 않아야 한다. 그런데, 타겟 영상에 대한 성능 지표를 F1 스코어(score)로 나타내면, 액션 인식만을 이용하는 경우, F1 스코어가 대략 0.4이하로 파악된 데 비해, 음성 인식을 이용하는 경우, F1 스코어가 대략 0.6 이상으로 파악되었다. 즉, 액션 인식만을 이용하는 경우, 일반 수비가 호수비로 인식되거나, 호수비가 제외되는 오류들이 많았던 데 비해, 음성 인식을 이용하는 겨우, 이러한 오류들이 크게 감소되었다. 아울러, 컴퓨터 시스템(100)이 미리 정해진 이벤트에 대한 타겟 영상을 검출하는 데 있어서, 음성 인식과 액션 인식의 조합을 이용함으로써, 더 높은 정확도를 나타낼 것이다. 이에 따라, 타겟 영상을 원하는 사용자 요구들이 보다 높은 만족도로 충족될 것이다.
다양한 실시예들에 따른 컴퓨터 시스템(100)의 방법은, 스포츠 경기 중 경기 영상에 대응하는 중계 음성을 텍스트로 변환하는 단계(420 단계, 520 단계, 625 단계), 및 텍스트를 기반으로, 경기 영상으로부터 미리 정해진 이벤트와 관련된 타겟 영상을 검출하는 단계(440 단계, 545 단계, 640 단계)를 포함할 수 있다.
다양한 실시예들에 따르면, 중계 음성을 텍스트로 변환하는 단계(420 단계, 520 단계, 625 단계)는, 경기 영상으로부터 부분 영상을 검출하는 단계(410 단계, 510 단계, 610 단계), 및 부분 영상에 대응하는 중계 음성을 텍스트로 변환하는 단계(420 단계, 520 단계, 625 단계)를 포함할 수 있다.
다양한 실시예들에 따르면, 타겟 영상을 검출하는 단계(440 단계, 545 단계, 640 단계)는, 텍스트가 이벤트와 관련된 적어도 하나의 키워드를 포함하면(430 단계, 530 단계, 630 단계), 부분 영상을 타겟 영상으로 검출하는 단계(440 단계, 545 단계, 640 단계)를 포함할 수 있다.
일 실시예에 따르면, 부분 영상을 타겟 영상으로 검출하는 단계(545 단계)는, 텍스트가 키워드를 포함하면(530 단계), 부분 영상에서 적어도 하나의 객체의 액션을 인식하는 단계(541 단계), 및 액션이 이벤트와 관련되면(543 단계), 부분 영상을 타겟 영상으로 검출하는 단계(545 단계)를 포함할 수 있다.
다른 실시예에 따르면, 부분 영상에 대응하는 중계 음성을 텍스트로 변환하는 단계(625 단계)는, 부분 영상에서 적어도 하나의 객체의 액션을 인식하는 단계(621 단계), 및 액션이 미리 정해진 이벤트와 관련되면(623 단계), 부분 영상에 대응하는 중계 음성을 텍스트로 변환하는 단계(625 단계)를 포함할 수 있다.
다양한 실시예들에 따르면, 부분 영상을 검출하는 단계(410 단계, 510 단계, 610 단계)는, 텍스트 중계 데이터를 기반으로, 경기 영상으로부터 부분 영상을 검출할 수 있다.
다양한 실시예들에 따르면, 부분 영상을 검출하는 단계(410 단계, 510 단계, 610 단계)는, 경기 영상의 스코어 보드를 인식하여, 텍스트 중계 데이터와 경기 영상을 매핑시키는 단계, 및 텍스트 중계 데이터를 기반으로 결정되는 경기 영상 내 위치로부터, 부분 영상을 검출하는 단계를 포함할 수 있다.
다양한 실시예들에 따르면, 스포츠 경기는 야구이고, 이벤트는 호수비를 포함할 수 있다.
다양한 실시예들에 따르면, 부분 영상을 검출하는 단계(410 단계, 510 단계, 610 단계)는, 경기 영상으로부터 아웃과 관련된 부분 영상을 검출하는 단계를 포함할 수 있다.
다양한 실시예들에 따른 컴퓨터 시스템(100)은, 메모리(140), 및 메모리(140)와 연결되고, 메모리(140)에 저장된 적어도 하나의 명령을 실행하도록 구성되는 프로세서(150)를 포함하고, 프로세서(150)는, 스포츠 경기 중 경기 영상에 대응하는 중계 음성을 텍스트로 변환하고, 텍스트를 기반으로, 경기 영상으로부터 미리 정해진 이벤트와 관련된 타겟 영상을 검출하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(150)는, 경기 영상으로부터 부분 영상을 검출하고, 부분 영상에 대응하는 중계 음성을 텍스트로 변환하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(150)는, 텍스트가 이벤트와 관련된 적어도 하나의 키워드를 포함하면, 부분 영상을 타겟 영상으로 검출하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(150)는, 텍스트가 키워드를 포함하면, 부분 영상에서 적어도 하나의 객체의 액션을 인식하고, 액션이 이벤트와 관련되면, 부분 영상을 타겟 영상으로 검출하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(150)는, 부분 영상에서 적어도 하나의 객체의 액션을 인식하고, 액션이 미리 정해진 이벤트와 관련되면, 부분 영상에 대응하는 중계 음성을 텍스트로 변환하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(150)는, 텍스트 중계 데이터를 기반으로, 경기 영상으로부터 부분 영상을 검출하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(150)는, 경기 영상의 스코어 보드를 인식하여, 텍스트 중계 데이터와 경기 영상을 매핑시키고, 텍스트 중계 데이터를 기반으로 결정되는 경기 영상 내 위치로부터, 부분 영상을 검출하도록 구성될 수 있다.
다양한 실시예들에 따르면, 스포츠 경기는 야구이고, 이벤트는 호수비를 포함할 수 있다.
다양한 실시예들에 따르면, 프로세서(150)는, 경기 영상으로부터 아웃과 관련된 부분 영상을 검출하도록 구성될 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
다양한 실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이 때 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 그리고, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성 요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성 요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성 요소를 다른 구성 요소와 구분하기 위해 사용될 뿐 해당 구성 요소들을 한정하지 않는다. 어떤(예: 제 1) 구성 요소가 다른(예: 제 2) 구성 요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성 요소가 상기 다른 구성 요소에 직접적으로 연결되거나, 다른 구성 요소(예: 제 3 구성 요소)를 통하여 연결될 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
다양한 실시예들에 따르면, 기술한 구성 요소들의 각각의 구성 요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성 요소들 중 하나 이상의 구성 요소들 또는 단계들이 제거되거나, 또는 하나 이상의 다른 구성 요소들 또는 단계들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성 요소들(예: 모듈 또는 프로그램)은 하나의 구성 요소로 통합될 수 있다. 이런 경우, 통합된 구성 요소는 복수의 구성 요소들 각각의 구성 요소의 하나 이상의 기능들을 통합 이전에 복수의 구성 요소들 중 해당 구성 요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 단계들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 단계들 중 하나 이상이 다른 순서로 실행되거나, 제거되거나, 또는 하나 이상의 다른 단계들이 추가될 수 있다.

Claims (20)

  1. 컴퓨터 시스템의 방법에 있어서,
    스포츠 경기 중 경기 영상에 대응하는 중계 음성을 텍스트로 변환하는 단계; 및
    상기 텍스트를 기반으로, 상기 경기 영상으로부터 미리 정해진 이벤트와 관련된 타겟 영상을 검출하는 단계
    를 포함하는,
    방법.
  2. 제 1 항에 있어서,
    상기 중계 음성을 상기 텍스트로 변환하는 단계는,
    상기 경기 영상으로부터 부분 영상을 검출하는 단계; 및
    상기 부분 영상에 대응하는 중계 음성을 텍스트로 변환하는 단계
    를 포함하는,
    방법.
  3. 제 2 항에 있어서,
    상기 타겟 영상을 검출하는 단계는,
    상기 텍스트가 상기 이벤트와 관련된 적어도 하나의 키워드를 포함하면, 상기 부분 영상을 상기 타겟 영상으로 검출하는 단계
    를 포함하는,
    방법.
  4. 제 3 항에 있어서,
    상기 부분 영상을 상기 타겟 영상으로 검출하는 단계는,
    상기 텍스트가 상기 키워드를 포함하면, 상기 부분 영상에서 적어도 하나의 객체의 액션을 인식하는 단계; 및
    상기 액션이 상기 이벤트와 관련되면, 상기 부분 영상을 상기 타겟 영상으로 검출하는 단계
    를 포함하는,
    방법.
  5. 제 2 항에 있어서,
    상기 부분 영상에 대응하는 상기 중계 음성을 상기 텍스트로 변환하는 단계는,
    상기 부분 영상에서 적어도 하나의 객체의 액션을 인식하는 단계; 및
    상기 액션이 미리 정해진 이벤트와 관련되면, 상기 부분 영상에 대응하는 상기 중계 음성을 상기 텍스트로 변환하는 단계
    를 포함하는,
    방법.
  6. 제 2 항에 있어서,
    상기 부분 영상을 검출하는 단계는,
    텍스트 중계 데이터를 기반으로, 상기 경기 영상으로부터 상기 부분 영상을 검출하는,
    방법.
  7. 제 6 항에 있어서,
    상기 부분 영상을 검출하는 단계는,
    상기 경기 영상의 스코어 보드를 인식하여, 상기 텍스트 중계 데이터와 상기 경기 영상을 매핑시키는 단계; 및
    상기 텍스트 중계 데이터를 기반으로 결정되는 상기 경기 영상 내 위치로부터, 상기 부분 영상을 검출하는 단계
    를 포함하는,
    방법.
  8. 제 2 항에 있어서,
    상기 스포츠 경기는 야구이고,
    상기 이벤트는 호수비를 포함하는,
    방법.
  9. 제 8 항에 있어서,
    상기 부분 영상을 검출하는 단계는,
    상기 경기 영상으로부터 아웃과 관련된 상기 부분 영상을 검출하는 단계
    를 포함하는,
    방법.
  10. 제 1 항 내지 제 9 항 중 어느 한 항의 방법을 상기 컴퓨터 장치에 실행시키기 위해 비-일시적인 컴퓨터 판독 가능한 기록 매체에 저장되는 컴퓨터 프로그램.
  11. 제 1 항 내지 제 9 항 중 어느 한 항의 방법을 상기 컴퓨터 장치에 실행시키기 위한 프로그램이 기록되어 있는 비-일시적인 컴퓨터 판독 가능한 기록 매체.
  12. 컴퓨터 시스템에 있어서,
    메모리; 및
    상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성되는 프로세서를 포함하고,
    상기 프로세서는,
    스포츠 경기 중 경기 영상에 대응하는 중계 음성을 텍스트로 변환하고,
    상기 텍스트를 기반으로, 상기 경기 영상으로부터 미리 정해진 이벤트와 관련된 타겟 영상을 검출하도록 구성되는,
    컴퓨터 시스템.
  13. 제 12 항에 있어서,
    상기 프로세서는,
    상기 경기 영상으로부터 부분 영상을 검출하고,
    상기 부분 영상에 대응하는 중계 음성을 텍스트로 변환하도록 구성되는,
    컴퓨터 시스템.
  14. 제 13 항에 있어서,
    상기 프로세서는,
    상기 텍스트가 상기 이벤트와 관련된 적어도 하나의 키워드를 포함하면, 상기 부분 영상을 상기 타겟 영상으로 검출하도록 구성되는,
    컴퓨터 시스템.
  15. 제 14 항에 있어서,
    상기 프로세서는,
    상기 텍스트가 상기 키워드를 포함하면, 상기 부분 영상에서 적어도 하나의 객체의 액션을 인식하고,
    상기 액션이 상기 이벤트와 관련되면, 상기 부분 영상을 상기 타겟 영상으로 검출하도록 구성되는,
    컴퓨터 시스템.
  16. 제 13 항에 있어서,
    상기 프로세서는,
    상기 부분 영상에서 적어도 하나의 객체의 액션을 인식하고,
    상기 액션이 미리 정해진 이벤트와 관련되면, 상기 부분 영상에 대응하는 상기 중계 음성을 상기 텍스트로 변환하도록 구성되는,
    컴퓨터 시스템.
  17. 제 13 항에 있어서,
    상기 프로세서는,
    텍스트 중계 데이터를 기반으로, 상기 경기 영상으로부터 상기 부분 영상을 검출하도록 구성되는,
    컴퓨터 시스템.
  18. 제 17항에 있어서,
    상기 프로세서는,
    상기 경기 영상의 스코어 보드를 인식하여, 상기 텍스트 중계 데이터와 상기 경기 영상을 매핑시키고,
    상기 텍스트 중계 데이터를 기반으로 결정되는 상기 경기 영상 내 위치로부터, 상기 부분 영상을 검출하도록 구성되는,
    컴퓨터 시스템.
  19. 제 13 항에 있어서,
    상기 스포츠 경기는 야구이고,
    상기 이벤트는 호수비를 포함하는,
    컴퓨터 시스템.
  20. 제 19 항에 있어서,
    상기 프로세서는,
    상기 경기 영상으로부터 아웃과 관련된 상기 부분 영상을 검출하도록 구성되는,
    컴퓨터 시스템.
KR1020210115248A 2021-08-31 2021-08-31 음성 인식을 기반으로 경기 영상으로부터 타겟 영상을 검출하기 위한 컴퓨터 시스템 및 그의 방법 KR102601285B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210115248A KR102601285B1 (ko) 2021-08-31 2021-08-31 음성 인식을 기반으로 경기 영상으로부터 타겟 영상을 검출하기 위한 컴퓨터 시스템 및 그의 방법
US17/820,916 US20230069720A1 (en) 2021-08-31 2022-08-19 Computer system for detecting target video from sports video based on voice recognition and method of the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210115248A KR102601285B1 (ko) 2021-08-31 2021-08-31 음성 인식을 기반으로 경기 영상으로부터 타겟 영상을 검출하기 위한 컴퓨터 시스템 및 그의 방법

Publications (2)

Publication Number Publication Date
KR20230032426A true KR20230032426A (ko) 2023-03-07
KR102601285B1 KR102601285B1 (ko) 2023-11-10

Family

ID=85286135

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210115248A KR102601285B1 (ko) 2021-08-31 2021-08-31 음성 인식을 기반으로 경기 영상으로부터 타겟 영상을 검출하기 위한 컴퓨터 시스템 및 그의 방법

Country Status (2)

Country Link
US (1) US20230069720A1 (ko)
KR (1) KR102601285B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210067874A (ko) * 2019-11-29 2021-06-08 네이버 주식회사 경기 영상 내의 타겟 영상을 제공하기 위한 전자 장치 및 그의 동작 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210067874A (ko) * 2019-11-29 2021-06-08 네이버 주식회사 경기 영상 내의 타겟 영상을 제공하기 위한 전자 장치 및 그의 동작 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
최윤철 외5인 공정, ‘e스포츠 중계 영상 요약을 위한 하이라이트 시점 추천 시스템,’한국정보과학회 학술발표논문집, 2020, pp.358-360 (2020.) 1부.* *

Also Published As

Publication number Publication date
KR102601285B1 (ko) 2023-11-10
US20230069720A1 (en) 2023-03-02

Similar Documents

Publication Publication Date Title
US11450353B2 (en) Video tagging by correlating visual features to sound tags
US20200089661A1 (en) System and method for providing augmented reality challenges
TWI489397B (zh) 用於提供適應性手勢分析之方法、裝置及電腦程式產品
US11007445B2 (en) Techniques for curation of video game clips
CN109474850B (zh) 运动像素视频特效添加方法、装置、终端设备及存储介质
US20210170229A1 (en) Systems and methods for providing strategic game recommendations in a sports contest using artificial intelligence
KR102466526B1 (ko) 경기 영상에 대한 이벤트의 태깅을 위한 전자 장치 및 그의 동작 방법
US11030479B2 (en) Mapping visual tags to sound tags using text similarity
US20140232748A1 (en) Device, method and computer readable recording medium for operating the same
EP4340377A2 (en) Fake video detection using block chain
JP2021531589A (ja) 目標対象の動作認識方法、装置及び電子機器
US9870772B2 (en) Guiding device, guiding method, program, and information storage medium
JP7315705B2 (ja) タッチパッド入力を備えたゲームコントローラ
KR102601285B1 (ko) 음성 인식을 기반으로 경기 영상으로부터 타겟 영상을 검출하기 위한 컴퓨터 시스템 및 그의 방법
US20170193668A1 (en) Intelligent Equipment-Based Motion Sensing Control Method, Electronic Device and Intelligent Equipment
US11837262B2 (en) Electronic device for tagging event in sports play video and operating method thereof
KR102601283B1 (ko) 경기 영상으로부터 타겟 영상 생성 시 불필요한 영상을 제거하기 위한 컴퓨터 시스템 및 그의 방법
US11813523B2 (en) Automatic triggering of a gameplay recording using visual and acoustic fingerprints
WO2022260589A1 (zh) 触碰动画显示方法、装置、设备及介质
US12003829B2 (en) Electronic device for providing target video in sports play video and operating method thereof
KR20240003987A (ko) 사운드 인식을 통해 확인되는 지점을 기반으로 경기 영상으로부터 타겟 영상을 검출하기 위한 컴퓨터 시스템 및 그의 방법
KR20240096049A (ko) 화자 분할 방법 및 시스템
WO2017206397A1 (zh) 一种播放器的皮肤调整方法及设备
CN118155603A (zh) 虚拟数字人的发音纠正方法、电子设备、装置及存储介质
CN113808158A (zh) 视频中群体对象运动的分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant