WO2023243754A1

WO2023243754A1 - 지정된 모션이 캡쳐된 시점을 추출하는 전자 장치 및 방법

Info

Publication number: WO2023243754A1
Application number: PCT/KR2022/008660
Authority: WO
Inventors: 김영익; 이영현; 이준수; 정현조
Original assignee: 주식회사 엔씨소프트
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2023-12-21

Abstract

일 실시예에 따른 전자 장치(electronic device)는, 인스트럭션들을 저장하기 위한 메모리, 및 상기 메모리와 작동적으로 결합된(operably coupled to) 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신할 수 있다. 상기 적어도 하나의 프로세서는, 상기 멀티미디어 콘텐트 내 오디오 신호에 기반하여, 시간 영역 내에서(in a time domain) 상기 지정된 모션이 수행된 확률의 분포를 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 획득된 분포 내에서 복수의 피크 값들을 식별하는 것에 기반하여, 상기 멀티미디어 콘텐트 내에서, 상기 오디오 신호에 동기화된 비디오 신호를 이용하여, 상기 복수의 피크 값들에 대응하는 복수의 시점들 중에서, 상기 지정된 모션이 캡쳐된 하나의 시점을 획득할 수 있다.

Description

지정된 모션이 캡쳐된 시점을 추출하는 전자 장치 및 방법

본 문서에서 개시되는 실시예들은, 지정된 모션이 캡쳐된 시점을 추출하는 전자 장치 및 방법에 관한 것이다.

영상으로부터, 시청자의 흥미를 끌기 위하여, 지정된 모션이 캡쳐된 영상을 추출하여, 컨텐츠를 제공하는 전자 장치가 개발되고 있다. 예를 들어, 전자 장치는, 스포츠 경기 영상으로부터, 지정된 모션이 캡쳐된 영상을 추출하여, 경기가 종료된 이후에, 하이라이트 영상을 제공할 수 있다. 전자 장치는, 영상으로부터 지정된 모션이 캡쳐된 시점을 식별하기 위해, 상기 영상에 포함된 오디오 신호를 이용할 수 있다.

전자 장치가 오디오 신호를 이용하여, 지정된 모션이 캡쳐된 시점을 보다 정확하게 추출하는 방안이 요구될 수 있다.

본 문서에서 이루고자 하는 기술적 과제는 상술한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

일 실시예에 따른 전자 장치의 방법은, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 멀티미디어 콘텐트 내 오디오 신호에 기반하여, 시간 영역 내에서(in a time domain) 상기 지정된 모션이 수행된 확률의 분포를 획득하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 획득된 분포 내에서 복수의 피크 값들을 식별하는 것에 기반하여, 상기 멀티미디어 콘텐트 내에서, 상기 오디오 신호에 동기화된 비디오 신호를 이용하여, 상기 복수의 피크 값들에 대응하는 복수의 시점들 중에서, 상기 지정된 모션이 캡쳐된 하나의 시점을 획득하는 동작을 포함할 수 있다.

일 실시예에 따른 전자 장치의 방법은, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 요청의 수신에 기반하여, 상기 멀티미디어 콘텐트 내 오디오 신호 내에서, 상기 지정된 모션에 의해 야기되는(caused by) 소리가 캡쳐된 시점을 식별하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 오디오 신호 내에서, 임계 값 미만의 시점을 식별하는 것에 응답하여, 상기 식별된 시점이 상기 지정된 모션이 캡쳐된 시점임을 나타내는 정보를 출력하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 오디오 신호 내에서, 임계 값 이상의 시점들을 식별하는 것에 응답하여, 상기 시점들을 포함하는 상이한 시간 구간들 내 비디오 신호에 기반하여, 상기 시점들 중 어느 한 시점을, 상기 지정된 모션이 캡쳐된 시점으로 선택하는 동작을 포함할 수 있다.

전자 장치는 영상에 포함된 비디오 신호 또는 오디오 신호 중 적어도 하나에 기반하여, 시간 영역 내에서 지정된 모션이 캡쳐된 시점을 보다 정확하게 획득할 수 있다.

본 개시에서 얻을 수 있는 효과는 상술한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은, 일 실시예에 따른(according to an embodiment), 전자 장치의 블록도이다.

도 2는, 일 실시예에 따른 전자 장치가 메모리 내에 저장된 파라미터들의 집합으로부터 획득하는 뉴럴 네트워크를 설명하기 위한 예시를 도시한다.

도 3은, 일 실시예에 따른, 전자 장치가 영상으로부터 지정된 모션이 캡쳐된 영상을 추출하는 동작을 설명하기 위한 예시를 도시한다.

도 4는, 일 실시예에 따른, 전자 장치가 영상에 포함된 오디오 신호에 기반하여, 지정된 모션과 관련된 소리가 녹음된 확률의 피크 값을 식별하는 동작을 설명하기 위한 예시를 도시한다.

도 5는, 일 실시예에 따른, 전자 장치가, 오디오 신호 내에서, 피크 값에 대응하는 시점을 획득하기 위한 예시를 도시한다.

도 6a 내지 도 6c는, 일 실시예에 따른, 전자 장치가, 오디오 신호에 포함된 피크 값의 개수를 이용하여, 피크 값에 대응하는 시점을 식별하기 위한 동작을 설명하기 위한 예시를 도시한다.

도 7은, 일 실시예에 따른, 전자 장치가 뉴럴 네트워크를 통하여, 객체들을 추출하고, 추출된 객체들을 통해 공의 위치를 추적하는 예시를 도시한다.

도 8은, 일 실시예에 따른, 전자 장치가 비디오 신호에 기반하여 식별되는 공의 궤적을 이용하여, 오디오 신호에 포함된 복수의 피크들 중 하나의 피크를 선택하는 동작을 설명하기 위한 예시를 도시한다.

도 9는, 일 실시예에 따른, 전자 장치가, 지정된 모션이 캡쳐된 시점을 검출하기위한 동작을 설명하기 위한 흐름도이다.

도 10은, 일 실시예에 따른, 전자 장치가, 피크 개수에 기반한 동작을 설명하기 위한 흐름도이다.

도 11은, 일 실시예에 따른, 전자 장치가, 뉴럴 네트워크를 이용하여, 영상으로부터 지정된 모션이 캡쳐된 영상을 추출하기위한 동작을 설명하기 위한 흐름도이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은, 일 실시예에 따른, 전자 장치(101)의 블록도이다.

도 1을 참고하면, 일 실시예에 따른 전자 장치(101)는 프로세서(110), 메모리(120), 또는 통신 회로(140) 중 적어도 하나를 포함할 수 있다. 프로세서(110), 메모리(120), 및 통신 회로(140)는 통신 버스(a communication bus)와 같은 전자 소자(electronical component)에 의해 서로 전기적으로 및/또는 작동적으로 연결될 수 있다(electronically and/or operably coupled with each other). 전자 장치(101)에 포함된 하드웨어 컴포넌트의 타입 및/또는 개수는 도 1에 도시된 바에 제한되지 않는다. 예를 들어, 전자 장치(101)는 도 1에 도시된 하드웨어 컴포넌트 중 일부만 포함할 수 있다.

일 실시예에 따른 전자 장치(101)의 프로세서(110)는 하나 이상의 인스트럭션들에 기반하여 데이터를 처리하기 위한 하드웨어 컴포넌트를 포함할 수 있다. 데이터를 처리하기 위한 하드웨어 컴포넌트는, 예를 들어, ALU(Arithmetic and Logic Unit), FPGA(Field Programmable Gate Array) 및/또는 CPU(Central Processing Unit)를 포함할 수 있다. 프로세서(110)의 개수는 하나 이상일 수 있다. 예를 들어, 프로세서(110)는 듀얼 코어(dual core), 쿼드 코어(quad core) 또는 헥사 코어(hexa core)와 같은 멀티-코어 프로세서의 구조를 가질 수 있다.

일 실시예에 따른 전자 장치(101)의 메모리(120)는 프로세서(110)에 입력 및/또는 출력되는 데이터 및/또는 인스트럭션을 저장하기 위한 하드웨어 컴포넌트를 포함할 수 있다. 메모리(120)는, 예를 들어, RAM(Random-Access Memory)와 같은 휘발성 메모리(Volatile Memory) 및/또는 ROM(Read-Only Memory)와 같은 비휘발성 메모리(Non-Volatile Memory)를 포함할 수 있다. 휘발성 메모리는, 예를 들어, DRAM(Dynamic RAM), SRAM(Static RAM), Cache RAM, PSRAM (Pseudo SRAM) 중 적어도 하나를 포함할 수 있다. 비휘발성 메모리는, 예를 들어, PROM(Programmable ROM), EPROM (Erasable PROM), EEPROM (Electrically Erasable PROM), 플래시 메모리, 하드디스크, 컴팩트 디스크, eMMC(Embedded Multi Media Card) 중 적어도 하나를 포함할 수 있다.

일 실시예에 따른 전자 장치(101)의 메모리(120) 내에서, 프로세서(110)가 데이터에 수행할 동작을 나타내는 하나 이상의 인스트럭션들이 저장될 수 있다. 인스트럭션들의 집합은, 펌웨어, 운영 체제, 프로세스, 루틴, 서브-루틴 및/또는 어플리케이션으로 참조될 수 있다. 예를 들어, 전자 장치(101) 및/또는 전자 장치(101)의 프로세서(110)는 어플리케이션 형태로 배포된 복수의 인스트럭션들의 집합(set of a plurality of instructions)을 실행하여, 도 3 내지 도 8의 동작들 중 적어도 하나를 수행할 수 있다.

일 실시예에 따른 전자 장치(101)의 메모리(120) 내에, 뉴럴 네트워크(125)와 관련된 파라미터들의 집합이 저장될 수 있다. 뉴럴 네트워크(125)는, 많은 수의 인공 뉴런(또는, 노드)들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 소프트웨어나 하드웨어로 구현된 인식 모델이다. 뉴럴 네트워크(125)는 인공 뉴런들을 통해 인간의 인지 작용이나 학습 과정을 수행할 수 있다. 뉴럴 네트워크(125)와 관련된 파라미터들은, 예를 들어, 뉴럴 네트워크(125)에 포함된 복수의 노드들 및/또는 상기 복수의 노드들 사이의 연결에 할당되는(assigned) 가중치를 나타낼 수 있다. 일 실시예에 따른 전자 장치(101)의 메모리(120) 내에 저장된 파라미터들의 집합에 의해 나타나는 뉴럴 네트워크(125)의 구조는 도 2를 통해 후술될 것이다. 메모리(120) 내에 저장된 뉴럴 네트워크(125)의 개수는, 도 1에 도시된 바에 제한되지 않으며, 복수의 뉴럴 네트워크들 각각에 대응하는 파라미터들의 집합들이 메모리(120) 내에 저장될 수 있다.

일 실시예에 따른 전자 장치(101)의 통신 회로(140)는 전자 장치(101) 및 외부 전자 장치 사이의 전기 신호의 송신 및/또는 수신을 지원하기 위한 하드웨어 컴포넌트를 포함할 수 있다. 통신 회로(140)는, 예를 들어, 모뎀(MODEM), 안테나, O/E(Optic/Electronic) 변환기 중 적어도 하나를 포함할 수 있다. 통신 회로(140)는, 이더넷(ethernet), LAN(Local Area Network), WAN(Wide Area Network), WiFi(Wireless Fidelity), Bluetooth, BLE(Bluetooth Low Energy), ZigBee, LTE(Long Term Evolution), 5G NR(New Radio)와 같은 다양한 타입의 프로토콜에 기반하여 전기 신호의 송신 및/또는 수신을 지원할 수 있다.

일 실시예에 따른 전자 장치(101)는 뉴럴 네트워크(125)를 이용하여, 영상으로부터, 지정된 모션이 포함된 영상을 추출(extract)할 수 있다. 전자 장치(101)는 상기 추출된 영상에 포함된 비디오 신호로부터, 상기 영상에 포함된 적어도 하나의 외부 객체를 식별할 수 있다. 전자 장치(101)는 상기 외부 객체를 식별하는 것에 기반하여, 지정된 모션이 캡쳐된 시점을 식별할 수 있다. 전자 장치(101)는, 상기 추출된 영상에 포함된 오디오 신호로부터, 공이 적어도 하나의 외부 객체와 접촉하는 소리를 식별할 수 있다. 예를 들어, 전자 장치(101)는 뉴럴 네트워크(125)를 이용하여, 상기 소리가 식별된 시점을 기반하여, 상기 지정된 모션이 캡쳐된 시점을 조정할 수 있다. 일 예로, 상기 캡쳐된 시점은, 경기 영상에 포함된 배팅 이벤트가 포함된 영상의 시점을 의미할 수 있다. 상기 시점은, 배팅 시점, 포구 시점 또는 투구 시점으로 참조될 수 있다. 상기 지정된 모션은 공을 투구하는 모션 또는 적어도 하나의 외부 객체와 상기 공이 접촉하는 모션 중 적어도 하나를 포함할 수 있다. 상기 외부 객체는 글러브, 배트, 홈 플레이트, 또는 기구물 중 적어도 하나를 포함할 수 있다.

일 실시예에 따른 전자 장치(101)의 메모리(120)는, 복수의 뉴럴 네트워크를 포함할 수 있다. 예를 들어, 제1 뉴럴 네트워크(151)는, 영상에 포함된 오디오 신호 내에서, 적어도 하나의 피크 값을 식별하도록 학습된 뉴럴 네트워크의 일 예일 수 있다. 전자 장치(101)가 제1 뉴럴 네트워크(151)를 이용하여, 상기 오디오 신호 내에서, 적어도 하나의 피크 값을 식별하는 동작은 도 4에서 후술한다. 예를 들어 제2 뉴럴 네트워크(152)는, 영상에 포함된 비디오 신호 내에서, 외부 객체에 기반하여, 공의 위치를 식별하도록 학습된 뉴럴 네트워크의 일 예일 수 있다.

일 실시예에 따른, 전자 장치(101)는 외부 전자 장치와 통신 채널을 수립하여, 영상을 수신할 수 있다. 상기 외부 전자 장치로부터 수신된 영상은, 스포츠 경기 영상일 수 있다. 외부 전자 장치는, 중계 카메라들이거나, 중계 카메라들로부터 수신한 영상을 통합하고, 가공하여 외부로 전송하는 서버일 수 있다. 공의 위치와 관련된 이미지는, 공이 포함된 이미지일 수 있다. 예를 들면, 상기 공의 위치와 관련된 이미지들은, 투수로부터 포수로 던져진 공, 및/또는 외야수 또는 내야수를 향해 떨어지는 공이 캡쳐된 이미지들일 수 있다. 일 예로, 상기 공의 위치와 관련된 이미지들은, 티잉 그라운드(teeing ground) 및/또는 필드 위에 배치된 공이 캡쳐된 이미지들일 수 있다. 예를 들어, 제3 뉴럴 네트워크(153)는, 경기 영상으로부터, 샷 단위에 따라 그룹핑하여 분할된 영상들을 획득하도록 학습된 뉴럴 네트워크의 일 예일 수 있다. 상기 분할된 영상들 중 적어도 하나는 배팅 영상 및/또는 포구 영상에 대응하는 멀티미디어 콘텐트일 수 있다.

일 실시예에 따른 전자 장치(101)는 지정된 모션이 캡쳐된 시점에 대한 정보를 수신하여, 제1 뉴럴 네트워크(151)를 트레이닝할 수 있다. 전자 장치(101)는 제1 뉴럴 네트워크(151)와 구별되는 다른 뉴럴 네트워크(예, 제2 뉴럴 네트워크(152))를 통하여, 제1 뉴럴 네트워크(151)를 학습시킬 수 있다. 예를 들면, 전자 장치(101)는, 제2 뉴럴 네트워크(152)를 통해 출력되는 적어도 하나의 영상을 생성하는 과정에서, 지정된 모션이 캡쳐된 시점을 식별하여, 제1 뉴럴 네트워크(151)를 학습시킬 수 있다. 예를 들어, 전자 장치(101)는, 제1 뉴럴 네트워크(151)를 통해 출력되는 피크 값에 대응하는 시점을 이용하여, 제2 뉴럴 네트워크(152)를 학습시킬 수 있다.

일 실시예에 따른 전자 장치(101)는 뉴럴 네트워크(125)를 이용하여, 적어도 하나의 영상(예, 스포츠 경기 영상)을 수신할 수 있다. 전자 장치(101)는 뉴럴 네트워크(125)에 기반하여, 상기 수신된 적어도 하나의 영상으로부터, 상기 수신된 적어도 하나의 영상과 상이한 영상을 추출할 수 있다. 상기 상이한 영상은 배팅 영상, 투구 영상, 포구 영상, 광고 영상, 덕아웃 영상, 필드 영상, 또는 관객, 외야수, 및/또는 내야수가 포함된 영상 중 하나의 영상을 포함할 수 있다.

이하에서는, 도 2를 참고하여, 일 실시예에 따른 전자 장치(101)가 메모리(120) 내에 저장된 파라미터들의 집합에 기반하여 획득하는 뉴럴 네트워크(125)가 설명된다.

도 2는, 일 실시예에 따른 전자 장치가 메모리 내에 저장된 파라미터들의 집합으로부터 획득하는 뉴럴 네트워크를 설명하기 위한 예시를 도시한다. 도 2의 뉴럴 네트워크(125)는 제1 뉴럴 네트워크(151) 내지 제3 뉴럴 네트워크(153)를 포함할 수 있다.

도 2를 참고하면, 뉴럴 네트워크(125)는 복수의 레이어들을 포함할 수 있다. 예를 들어, 뉴럴 네트워크(125)는 입력 레이어(210), 하나 이상의 히든 레이어들(220) 및 출력 레이어(230)를 포함할 수 있다. 입력 레이어(210)는 입력 데이터를 나타내는 벡터(예, 입력 레이어(210)에 포함된 노드들의 개수에 대응하는 원소들(elements)을 가지는 벡터)를 수신할 수 있다. 입력 데이터에 의해 발생된, 입력 레이어(210) 내 노드들 각각에서 발생된 신호들은, 입력 레이어(210)에서 히든 레이어들(220)로 송신될 수 있다. 출력 레이어(230)는, 히든 레이어들(220)로부터 수신된 하나 이상의 신호들에 기반하여, 뉴럴 네트워크(125)의 출력 데이터를 생성할 수 있다. 상기 출력 데이터는, 예를 들어, 출력 레이어(230)에 포함된 노드들의 개수에 대응하는 원소들을 가지는 벡터를 포함할 수 있다.

도 2를 참고하면, 하나 이상의 히든 레이어들(220)이 입력 레이어(210) 및 출력 레이어(230) 사이에 위치할 수 있고, 입력 레이어(210)를 통해 전달된 입력 데이터를 예측하기 쉬운 값으로 변환할 수 있다. 입력 레이어(210), 하나 이상의 히든 레이어들(220) 및 출력 레이어(230)는 복수의 노드들을 포함할 수 있다. 하나 이상의 히든 레이어들(220)은, 도시된 피드포워드(feedforward) 기반의 토폴로지에 제한되지 않으며, 예를 들어, CNN(convolutional neural network)에서의 콘볼루션 필터(convolution filter) 또는 완전 연결 레이어(fully connected layer)이거나, 특별한 기능이나 특징을 기준으로 묶인 다양한 종류의 필터 또는 레이어일 수 있다. 일 실시예에서, 하나 이상의 히든 레이어들(220)은 출력 값이 현재 시간의 히든 레이어에 다시 입력되는 리커런트 뉴럴 네트워크(recurrent neural network, RNN)에 기반하는 레이어일 수 있다. 일 예로, 입력 레이어(210), 하나 이상의 히든 레이어들(220) 및/또는 출력 레이어(230)는 트랜스포머(transformer) 모델의 일부 레이어일 수 있다. 일 실시예에 따른 뉴럴 네트워크(125)는 다수의(numerous) 히든 레이어들(220)을 포함하여, 딥 뉴럴 네트워크(deep neural network)를 형성할 수 있다. 딥 뉴럴 네트워크를 학습시키는 것을 딥 러닝(deep learning)이라 한다. 뉴럴 네트워크(125)의 노드 중에서, 히든 레이어들(220)에 포함된 노드를 가리켜 히든 노드라 한다.

입력 레이어(210) 및 하나 이상의 히든 레이어들(220)에 포함된 노드들은 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있고, 히든 레이어 및 출력 레이어에 포함된 노드들도 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있다. 뉴럴 네트워크(125)를 튜닝 및/또는 트레이닝하는 것은, 뉴럴 네트워크(125)에 포함된 레이어들(예, 입력 레이어(210), 하나 이상의 히든 레이어들(220) 및 출력 레이어(230)) 각각에 포함된 노드들 사이의 연결 가중치를 변경하는 것을 의미할 수 있다. 뉴럴 네트워크(125)의 튜닝은, 예를 들어, 지도 학습(supervised learning) 및/또는 비지도 학습(unsupervised learning)에 기반하여 수행될 수 있다.

일 실시예에 따른 전자 장치는, 비지도 학습에서 강화 학습(reinforcement learning)에 기반하여 뉴럴 네트워크(125)를 튜닝할 수 있다. 예를 들어, 전자 장치는, 뉴럴 네트워크(125)가 에이전트를 제어하기 위해 이용하는 정책 정보를, 에이전트 및 환경 사이의 상호 작용(interaction)에 기반하여 변경할 수 있다. 정책 정보는, 전자 장치가 뉴럴 네트워크를 이용하여 환경 내에서의 에이전트의 액션을 결정하는 규칙으로, 전자 장치는 에이전트 및 환경 사이의 상호 작용에 기반하여 뉴럴 네트워크를 트레이닝하여, 뉴럴 네트워크의 정책 정보를 변경할 수 있다. 예를 들어, 정책 정보는, 에이전트가 획득 가능한 보상 및/또는 목표를 달성하기 위한 최적의 액션 및/또는 액션의 시퀀스를 결정하도록 변경될 수 있다. 일 실시예에 따른 전자 장치는, 상기 상호 작용에 의한 상기 에이전트의 목표 및/또는 보상을 극대화하기 위하여, 상기 뉴럴 네트워크(125)에 의한 상기 정책 정보의 변경을 야기할 수 있다.

도 3은, 일 실시예에 따른, 전자 장치가 영상으로부터 지정된 모션이 캡쳐된 영상을 추출하는 동작을 설명하기 위한 예시를 도시한다. 도 3의 동작은 도 1의 전자 장치(101) 및/또는 도 1의 프로세서(110)가 적어도 하나의 뉴럴 네트워크(예, 도 1의 제3 뉴럴 네트워크(153))를 이용하여, 수행하는 동작의 일 예일 수 있다.

일 실시예에 따른 전자 장치는, 적어도 하나의 외부 전자 장치로부터, 영상(310)을 수신할 수 있다. 영상(310)은, 전자 장치(101)가 외부 전자 장치와 통신 채널을 수립하여, 전자 장치로 수신된 실시간 영상일 수 있다. 영상(310)은 화면 전환(screen change)으로 구성된 영상일 수 있다. 상기 화면 전환은, 연속되는 영상의 적어도 하나의 객체가 포함된 화면에서, 상기 객체와 상이한 객체가 포함된 다른 화면으로 영상이 전환되는 것을 의미할 수 있다. 일 예로, 배팅 영상(333)은 투구 영상(331)으로부터 화면 전환된 화면을 포함할 수 있다. 일 예로, 배팅 영상(333)은 포구 영상을 포함할 수 있다. 상기 화면 전환은, 적어도 하나의 화면이 사라지는 동안, 다른 화면이 표시되는 페이드-아웃(fade out), 적어도 하나의 화면 및 다른 화면이 서로 다른 방향에서 중첩되는 오버랩(overlap) 및/또는 단순 화면 전환으로 구분될 수 있다.

일 실시예에 따른 전자 장치는, 영상(310)으로부터 샷 단위의 영상(330)을 추출하기 위해, 영상(310)과 관련된 로그 정보를 이용할 수 있다. 예를 들어, 전자 장치는, 적어도 하나의 뉴럴 네트워크를 통해, 로그 정보를 수신하거나, 외부 전자 장치로부터 제공되는 영상으로부터 로그 정보를 추출할 수 있다. 예를 들어, 상기 로그 정보는, 경기의 진행 시간, 상기 영상의 프레임 번호, 상기 경기의 진행 정보 또는 상기 영상의 화면 정보 중 적어도 어느 하나를 포함할 수 있다.

일 실시예에 따른 전자 장치는, 외부 전자 장치로부터 수신한 영상(310)을 프레임별로 분할할 수 있다. 예를 들어 전자 장치는, 외부 전자 장치로부터, 수신한 영상(310)을 샷 단위로 분할할 수 있다. 상기 분할된 샷 단위의 영상(330)은 복수의 프레임들을 포함할 수 있다. 예를 들어, 상기 샷 단위는, 하나의 장치로 촬영된 영상(예, 영상의 단일 컷 신(single cut scene))을 의미할 수 있다. 예를 들면, 영상(310)은, 포수 시점에 위치한 카메라가 촬영한 영상, 투수 시점에 위치한 카메라가 촬영한 영상, 외야 카메라가 촬영한 영상 등의 다양한 영상들의 조합으로 형성될 수 있다. 일 예로, 샷 단위는, 카메라들에 의해 촬영된 영상들의 조합 중에서, 단일 카메라가 촬영한 구간을 의미할 수 있다. 예를 들어, 영상(310)은, 제1 카메라로 촬영된 영상이 포함되는 제1 구간과 화면 전환되어, 제2 카메라로 촬영된 영상이 포함되는 제2 구간을 포함할 수 있다. 샷은, 상기 제1 구간의 영상 또는 제2 구간의 영상을 의미할 수 있다.

일 실시예에 따르면, 전자 장치는, 샷 단위의 영상(330) 또는 프레임들을 분류하여, 멀티미디어 콘텐트를 획득할 수 있다. 상기 멀티미디어 콘텐트는 유사한 영상들의 집합일 수 있다. 투구 영상(331), 클로즈업 영상(332) 및/또는 배팅 영상(333)은 상기 멀티미디어 콘텐트에 포함될 수 있다. 일 예로, 상기 멀티미디어 콘텐트는, 광고 영상, 필드 영상 및/또는 관중석 영상을 포함할 수 있다. 전자 장치는, 샷 단위의 영상(330) 중 투수, 타자, 및/또는 포수가 포함되는 영상들 중에서, 공이 이동하는 영상을 식별할 수 있다. 일 예로, 전자 장치는 샷 단위의 영상(330) 중 외야수 및/또는 관객들이 포함되는 영상들 중에서, 공이 이동하는 영상을 식별할 수 있다. 전자 장치는, 프레임들 중에서, 공이 캡쳐된 프레임들을 추출할 수 있다. 상기 추출된 프레임들은 배팅 영상, 투구 영상, 포구 영상, 홈런 영상 및/또는 호수비 영상에 포함될 수 있다.

일 실시예에 따르면, 전자 장치의 프로세서(예, 도 1의 프로세서(110))는, 영상(310)과 관련된 로그 정보를 이용하여, 상기 로그 정보에 의해 나타나는 시점들(예, 공의 이동이 식별되는 시점들) 중에서, 투구 영상(331)이 식별되지 않는 시점이 존재하는 경우, 영상(310)으로부터, 투구 영상(331)이 식별되지 않는 시점에 대응하는 멀티미디어 콘텐트를 추출할 수 있다. 예를 들어, 프로세서는, 로그 정보의 상기 시점들 중에서, 투구 영상(331) 또는 프레임과 매칭되지 않는 시점을 식별하고, 상기 식별된 시점의 전 및/또는 후에 생성된 영상 또는 프레임과, 투구 추적 장치의 로그 정보에 포함된 타임 스탬프(timestamp) 차이를 이용하여, 영상(310)으로부터 투구 영상(331)을 더 추출할 수 있다(may further extract). 투구 영상(331) 및/또는 배팅 영상(333)은 적어도 하나의 지정된 모션이 캡쳐된 영상일 수 있다. 상기 지정된 모션은 공을 투구하는 모션 또는 글러브 및/또는 배트에 상기 공이 접촉하는 모션 중 적어도 하나를 포함할 수 있다. 상기 투구 추적 장치로부터 적어도 하나의 정보를 획득하는 동작은, 도 7에서 후술한다.

일 실시예에 따른 전자 장치는 영상(310)으로부터, 샷 단위의 영상(330)을 추출하여, 투구 영상(331), 클로즈업 영상(332) 및/또는 배팅 영상(333)과 상이한 영상을 획득할 수 있다. 상기 상이한 영상은 광고 영상, 덕아웃 영상, 또는 관객, 외야수, 및/또는 내야수가 포함된 영상 중 하나의 영상을 포함할 수 있다.

상술한 바와 같이, 전자 장치는 서버 및/또는 외부 전자 장치로부터 영상을 수신하고, 상시 수신된 영상으로부터, 샷 단위의 영상을 그룹핑할 수 있다. 전자 장치는 그룹핑된 샷 단위의 영상 중 지정된 모션이 캡쳐된 영상을 추출할 수 있다. 일 실시예에 따른 전자 장치는, 상기 캡쳐된 영상에 포함된 비디오 신호 및/또는 오디오 신호를 적어도 하나의 뉴럴 네트워크에게 송신할 수 있다. 전자 장치가 적어도 하나의 뉴럴 네트워크를 이용하여 오디오 신호에 포함된 피크 값을 식별하는 동작은 도 4에서 후술한다.

도 4는, 일 실시예에 따른, 전자 장치가 영상에 포함된 오디오 신호에 기반하여, 지정된 모션과 관련된 소리가 녹음된 확률의 피크 값을 식별하는 동작을 설명하기 위한 예시를 도시한다. 피크 값을 식별하는 동작은 도 1의 전자 장치(101) 및/또는 도 1의 프로세서(110)에 의해 수행될 수 있다.

도 4를 참고하면, 오디오 신호(410)의 진폭을 시간 영역을 따라 도시한 그래프가 도시된다. 일 실시예에 따른 전자 장치는, 도 3의 샷 단위의 영상(330)중 적어도 하나의 영상으로부터, 오디오 신호(410)를 추출할 수 있다. 오디오 신호(410)는 wav 형식으로 전자 장치에 수신될 수 있다. 예를 들어, 전자 장치는, 오디오 신호(410)를 수신하여, 시간 영역 내에서, 진폭(amplitude)의 변화를 식별할 수 있다. 예를 들어, 영상(예, 도 3의 배팅 영상(333))에 포함된 오디오 신호(410)는, 스포츠 경기 중에 배치된 적어도 하나의 외부 전자 장치에 의해 획득된 신호의 일 예일 수 있다. 오디오 신호(410)는 공이 글러브 또는 배트를 포함한 적어도 하나의 외부 객체와 접촉하는 소리, 경기 해설 음성, 및/또는 관객들의 소리를 포함할 수 있다.

일 실시예에 따른 전자 장치는 오디오 신호(410)로부터 특징 정보(430)를 획득할 수 있다. 예를 들어 특징 정보(430)는 시간 영역 내에서, 오디오 신호(410)에 포함된 주파수 또는 진폭 중 적어도 하나를 포함할 수 있다. 예를 들어, 도 4를 참고하면, 특징 정보(430)를 파형(waveform) 및 스펙트럼(spectrum)을 결합한 스펙트로그램(spectrogram)으로 나타낸 그래프가 도시된다. 일 예로, 파형은, 시간의 변화에 기반한 진폭의 변화를 의미할 수 있다. 스펙트럼은 주파수(frequency) 변화에 기반한 진폭의 변화를 의미할 수 있다. 특징 정보(430)는 시간 및/또는 주파수의 변화에 기반한 진폭의 변화를 포함할 수 있다.

일 실시예에 따른, 전자 장치는 제1 뉴럴 네트워크(151)를 이용하여, 오디오 신호(410)로부터 획득된 특징 정보(430)에 기반하여, 시간 영역 내에서, 지정된 모션에 의해 발생되는 소리가 캡쳐된 확률의 분포를 포함하는 정보(450)를 획득할 수 있다. 도 4를 참고하면, 정보(450)를 시간 영역을 따라 나타낸 그래프가 도시된다. 예를 들어, 정보(450)에 포함된 확률의 분포는, 시간 영역 내에서, 이산적인 시간들에 대응하는, 지정된 모션에 의해 발생되는 소리가 식별될 수 있는 확률들을 포함할 수 있다. 상기 확률의 분포는, 시간 영역 내에서, 상기 식별될 수 있는 확률들을 0과 1사이의 score 값으로 나타낼 수 있다. 전자 장치는 상기 확률의 분포에 기반하여, score 값을 획득할 수 있다. 전자 장치는 상기 score 값에 기반하여, 적어도 하나의 피크를 식별할 수 있다.

일 실시예에 따른 전자 장치의 프로세서(예, 도 1의 프로세서(110))는 특징 정보(430)를 제1 뉴럴 네트워크(151)로 송신할 수 있다. 예를 들어, 제1 뉴럴 네트워크(151)는 도 2의 뉴럴 네트워크(125)에 포함될 수 있다. 제1 뉴럴 네트워크(151)는 CNN(convolutional neural network) 및/또는 RNN(recurrent neural network) 구조를 포함할 수 있다. 제1 뉴럴 네트워크(151)는, 도 2의 입력 레이어(210), 도 2의 히든 레이어들(220), 또는 도 2의 출력 레이어(230) 중 적어도 하나를 포함할 수 있다. 전자 장치는 제1 뉴럴 네트워크(151)를 통해, 지정된 모션에 의해 발생되는 소리가 식별되는 시점을 확인(verify)할 수 있다. 상기 시점은 피크 값(470)에 매칭될 수 있다.

일 실시예에 따른, 전자 장치는, 제1 뉴럴 네트워크(151)를 이용하여, 지정된 값을 초과하는 값을 가진 피크 값(470)을 식별할 수 있다. 상기 지정된 값은 임계 값(예, 도 4의

)(455)에 대응할 수 있다. 전자 장치는 임계 값(455)을 설정(set)할 수 있다. 예를 들어, 임계 값(455)이 0.5로 설정된 경우, 전자 장치는 제1 뉴럴 네트워크(151)를 통해, 정보(450)에 포함된 확률의 분포에 기반하여, 0.5를 초과하는 값들을 식별할 수 있다. 일 예로, 전자 장치는 상기 식별된 값들 중 가장 큰 값을 피크 값(470)으로 식별할 수 있다. 예를 들어, 피크 값(470)은 지정된 모션에 의해 발생되는 소리가 캡쳐된 시점에 매칭될 수 있다. 피크 값(470)은 영상(예, 도 3의 배팅 영상(333))에 포함된 타구 음에 대응할 수 있다.

일 실시예에 따른 전자 장치는, 피크 값(470)이 식별되는 시점에 기반하여, 지정된 모션이 캡쳐된 시점을 획득할 수 있다. 전자 장치는 상기 캡쳐된 시점을 획득하기 위해, 뉴럴 네트워크를 학습시킬 수 있다. 전자 장치는 상기 캡쳐된 시점을 획득하기 위해, 사전 학습된 뉴럴 네트워크(예, 제1 뉴럴 네트워크(151))를 이용할 수 있다.

일 실시예에 따른 전자 장치는 피크 값(470)이 식별된 시점을 배팅 시점(또는, 포구 시점)으로 식별할 수 있다. 상기 배팅 시점은, 지정된 시간을 포함할 수 있다. 상기 지정된 시간은 제1 시점(451)부터 제2 시점(452)까지의 시간 영역일 수 있다. 예를 들어, 도 4를 참고하면, 제1 시점(451) 및/또는 제2 시점(452)은 정보(450)에 포함된 확률의 분포에서, 임계 값(455)에 매칭되는 시점을 의미할 수 있다. 전자 장치가 상기 지정된 시간을 획득하는 동작은 도 5에서 후술한다.

일 실시예에 따른 전자 장치는, 시간 영역 내에서, 정보(450)에 포함된 확률의 분포에 기반하여, 노이즈(415, 435)를, 시간 영역 내에서 지정된 모션에 의해 발생되는 소리와 상이한 소리로 식별할 수 있다. 일 예로, 노이즈(415, 435)는 정보(450)에 포함된 확률의 분포에서, 0에 매칭될 수 있다. 예를 들어, 노이즈(415, 435)는, 영상에 포함된 오디오 신호 내에서, 공이 적어도 하나의 외부 객체와 접촉한 소리를 제외한 소리의 일 예일 수 있다. 상기 공이 적어도 하나의 외부 객체와 접촉한 소리는 타구 음, 타격 음, 및/또는 배팅 음으로 참조될 수 있다. 상기 공이 적어도 하나의 외부 객체와 접촉한 소리를 제외한 소리는 영상에 포함된, 관객들의 소리, 및/또는 경기 해설 음성의 일 예일 수 있다.

일 실시예에서, 전자 장치는, 지정된 주파수를 포함하는 특징 정보를 식별하여, 호수비(fine play) 시점을 획득할 수 있다. 상기 호수비 시점은 투구 시점 또는 배팅 시점 중 적어도 하나의 시점과 상이한 시점일 수 있다. 예를 들어, 전자 장치는, 호수비 시점에 매칭되는 호수비 영상을, 영상(예, 도 3의 영상(310))에서, 투구 시점이 포함된 투구 영상(예, 도 3의 투구 영상(331)) 이후에 발생하는, 화면 전환에 기반하여, 식별할 수 있다. 예를 들어, 전자 장치는, 제1 뉴럴 네트워크(151)를 이용하여, 오디오 신호에 포함된, 관객들의 소리를 식별할 수 있다. 전자 장치는 관객들의 소리에 대응하는 주파수 및/또는 진폭에 기반하여, 뉴럴 네트워크(예, 제1 뉴럴 네트워크(151))를 학습시킬 수 있다. 전자 장치는, 상기 학습된 뉴럴 네트워크를 이용하여, 상기 호수비 영상에 기반하여, 상기 관객들의 소리에 대응하는 시점을 획득할 수 있다. 상기 획득된 시점은 호수비 시점에 참조될 수 있다.

상술한 바와 같이, 전자 장치는 영상에 포함된 오디오 신호를 통해, 적어도 하나의 타구 음을 획득할 수 있다. 전자 장치는 상기 획득된 타구 음을 이용하여, 영상에 포함된 타구 음이 녹음된 시점을 식별할 수 있다. 이하 도 5에서, 상기 시점을 획득하기 위한 동작이 설명된다.

도 5는, 일 실시예에 따른, 전자 장치가, 오디오 신호 내에서, 피크 값에 대응하는 시점을 획득하기 위한 예시를 도시한다. 도 5의 전자 장치는 도 1의 전자 장치(101)에 대응할 수 있다. 전자 장치는 오디오 신호 내에서 피크 값에 대응하는 시점을 획득하기 위해 적어도 하나의 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))를 이용할 수 있다.

일 실시예에 따른 전자 장치는 영상(예, 도 3의 영상(310))으로부터 추출된 영상 중 적어도 하나(예, 도 3의 배팅 영상(333))에 포함된 오디오 신호로부터, 특징 정보를 추출할 수 있다. 전자 장치는 상기 특징 정보를 이용하여, 확률의 분포(예, 정보(500)에 포함된 확률의 분포)를 획득할 수 있다. 정보(500)는, 도 4의 정보(450)에 참조될 수 있다. 전자 장치는 정보(500)에 포함된 확률의 분포에 기반하여, 임계 값(455)을 초과하는 값들을 포함하는 피크를 식별할 수 있다. 전자 장치는 상기 식별된 피크 중 가장 큰 값인 피크 값(470)을 식별할 수 있다. 도시하지 않았지만, 전자 장치는 복수의 피크들을 식별할 수 있다. 피크 값(470)은 오디오 신호에 포함된 타구 음, 타격 음, 공이 글러브에 접촉하여 발생하는 소리, 공이 땅에 접촉하여 발생하는 소리, 공이 배트에 접촉하여 발생하는 소리, 및/또는 공이 영상에 포함된 적어도 하나의 외부 객체와 상호 작용에 의해 발생하는 소리에 매칭될 수 있다. 일 예로, 피크 값(470)은, 전자 장치가 오디오 신호에 포함된 지정된 주파수 및/또는 파장을 식별하도록 학습된 뉴럴 네트워크를 이용하여 획득한 값일 수 있다.

일 실시예에 따른 전자 장치는 지정된 모션이 캡쳐된 시점을 추출할 수 있다. 상기 시점은 제1 시점(451)부터 제2 시점(452)까지의 대응되는 시점들을 포함할 수 있다. 일 예로, 제1 시점(451)은, 정보(500)에 포함된 확률의 분포에서, 임계 값(455)과 매칭되는 값 중 최초의 값을 의미할 수 있다. 제1 시점(451)에 매칭되는 확률의 분포의 기울기는 양수일 수 있다. 제2 시점(452)은, 정보(500)에 포함된 확률의 분포에서, 임계 값(455)과 매칭되는 값 중 마지막의 값을 의미할 수 있다. 제2 시점(452)에 매칭되는 확률의 분포의 기울기는 음수일 수 있다. 일 예로, 피크 값(470)은, 확률의 분포에서, 제1 시점(451)과 제2 시점(452)의 사이에 존재하는 이산적인 시점 중 중간 시점에 매칭되는 값을 의미할 수 있다. 전자 장치는, 상기 확률의 분포에 기반하여, 임계 값(455)과 매칭되는 값 중 기울기가 양수인 값을 제1 시점(451)으로 식별할 수 있다. 전자 장치는 상기 확률의 분포에 기반하여, 임계 값(455)과 매칭되는 값 중 기울기가 음수인 값을 제2 시점(452)으로 식별할 수 있다.

일 실시예에 따른 전자 장치는 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))에 기반하여, 후술하는 수학식 1을 이용하여, 제1 시점(451) 및/또는 제2 시점(452)을 획득할 수 있다. 그래프(510)는, 정보(500)에서, 제1 시점(451) 및/또는 제2 시점(452)에 매칭되는, 확률의 분포 중 일부를 의미할 수 있다.

상술한 수학식 1에서,

은 '

' 연산에 의해 구분되는 제1 시점(451) 및/또는 제2 시점(452)에 대응하는 시점을 의미할 수 있다. 예를 들어, 부호(예, 수학식 1의

)가 '-'인 경우,

은, 제1 시점(451)을 의미할 수 있다. 부호가 '+'인 경우,

은 제2 시점(452)을 의미할 수 있다.

또는

은, 시간 영역 내에서 이산적인 시간 중 하나의 시간을 의미할 수 있다. 일 예로,

은

에 대응하는 시간 이전에 시간을 의미할 수 있다.

또는

은, 시간 영역 내에서, 확률의 분포의 값(예, 도 5의 score 값) 중 하나의 값을 의미할 수 있다. 일 예로,

및/또는

은 정보(500)에 포함된, 확률의 분포에서,

및/또는

에 대응하는 score 값을 의미할 수 있다.

은 임계 값(455)을 의미할 수 있다. 일 실시예에 따른 전자 장치는 상술한 수학식 1을 이용하여, 배팅 영상(333)에 포함된 제1 시점(451) 및 제2 시점(452)을 획득할 수 있다.

일 실시예에 따른 전자 장치는, 획득한 제1 시점(451) 및 제2 시점 중 적어도 하나를 이용하여, 수학식 2에 기반하여, 지정된 모션이 캡쳐된 시점을 획득할 수 있다.

상술한 수학식 2에서,

는, 공이 적어도 하나의 외부 객체와 접촉하여 발생하는 소리에 대응하는 시점을 의미할 수 있다.

및/또는

는 지정된 값을 의미할 수 있다. 전자 장치 및/또는 프로세서는

및/또는

을 설정할 수 있다.

은 제2 시점(452)에 참조될 수 있다.

은 제1 시점(451)에 참조될 수 있다.

는, 정보(500)에 포함된 확률의 분포의 값(예, 도 5의 score) 중 가장 큰 값을 의미할 수 있다.

는 임계 값(455)을 의미할 수 있다.

는, 임계 값(455)보다 작은 값들을 포함하는 정보(예, 도 6a의 정보(610)) 내에, 복수의 값들 중 가장 큰 값에 대응하는 시점을 의미할 수 있다. 일 실시예에 따른, 전자 장치는, 수학식 2를 이용하여, 지정된 모션이 캡쳐된 시점을 획득할 수 있다.

일 실시예에 따른 전자 장치는, 임계 값을 초과하는 복수의 값들 중 가장 큰 값을 갖는 피크 값(470)을 식별할 수 있다. 전자 장치는 적어도 하나의 뉴럴 네트워크를 이용하여, 피크 값(470)에 대응하는 시점을 포함하는 지정된 시간을 배팅 시점 및/또는 포구 시점으로 식별할 수 있다. 상기 지정된 시간은, 제1 시점(451)으로부터 제2 시점(452)까지 대응되는 시간 영역을 의미할 수 있다. 전자 장치는 배팅 영상(예, 도 3의 배팅 영상(333)) 또는, 배팅 이벤트가 포함된 복수의 프레임들 중에서 상기 시간 영역에 대응하는 영상 또는 프레임을 추출할 수 있다.

일 실시예에 따른 전자 장치는 피크 값(470)에 대응하는 소리를 타구 음으로 식별할 수 있다. 상기 타구 음은 투구 된 공이 글러브와 접촉으로 발생하는 소리, 타자가 배팅할 때 발생하는 소리, 포수가 공을 놓쳐 땅과 접촉할 때 발생하는 소리, 또는 포수가 공을 놓쳐, 홈 플레이트 뒤의 상 기구물과의 접촉에 의해 발생되는 소리 중 적어도 하나의 소리를 포함할 수 있다. 전자 장치는 상기 식별된 타구 음을 이용하여, 상기 타구 음이 발생된 및/또는 녹음된 시점에 대응하는 영상 및/또는 프레임을 식별할 수 있다. 상기 식별된 영상 및/또는 프레임은 배팅 영상(예, 도 3의 배팅 영상(333))에 포함될 수 있다. 예를 들어, 제1 시점(451)은 피크 값(470)에 대응하는 시점보다 지정된 프레임 앞의 이미지(또는 화면)에 대응하는 시점일 수 있다. 일 예로, 제2 시점(452)은 피크 값(470)에 대응하는 시점보다 지정된 프레임 뒤의 이미지에 대응하는 시점일 수 있다. 다만, 이에 제한되지 않는다.

상술한 바와 같이, 전자 장치는, 적어도 하나의 뉴럴 네트워크를 통해, 배팅 영상에 포함된 오디오 신호에 기반하여, 피크 값의 식별 여부에 따라, 수학식 1 및/또는 수학식 2를 이용하여, 배팅 시점 및/또는 포구 시점을 획득할 수 있다. 전자 장치는, 복수의 멀티미디어 콘텐트를 수신하는 경우, 복수의 배팅 시점 및/또는 복수의 포구 시점을 획득할 수 있다. 전자 장치는 상기 획득한 복수의 배팅 시점에 대응하는 배팅 영상들을 결합하여 사용자에게 제공할 수 있다. 전자 장치는 상기 획득한 복수의 포구 시점에 기반하는 포구 영상들을 결합하여, 사용자에게 제공할 수 있다. 후술하는 도 6a 내지 도 6c에서, 식별된 피크의 개수에 기반하여, 전자 장치가 피크에 대응하는 시점을 획득하는 동작이 설명된다.

도 6a 내지 도 6c는, 일 실시예에 따른, 전자 장치가, 오디오 신호에 포함된 피크 값의 개수를 이용하여, 피크 값에 대응하는 시점을 식별하기 위한 동작을 설명하기 위한 예시를 도시한다. 도 6a 내지 도 6c에 포함된 복수의 피크를 식별하는 동작은 도 1의 전자 장치(101) 및/또는 도 1의 프로세서(110)에 의해 수행될 수 있다. 정보(610), 정보(630), 및/또는 정보(650)는 도 5의 정보(500)에 대응할 수 있다. 피크들(615, 635, 653, 655)은, 각각 상이한 시점에 대응될 수 있다. 다만 상술한 실시예에 제한되지 않는다. 일 예로, 화면들(690-1, 690-2, 690-3, 690-4)은, 도 3의 배팅 영상(333)에 포함된 적어도 하나의 프레임에 대응할 수 있다. 일 예로, 화면들(690-1, 690-2, 690-3, 690-4)을 포함하는 배팅 영상들은 각각 상이할 수 있다.

도 6a를 참고하면, 정보(610)내에서, 임계 값(455) 미만의 값을 가진 적어도 하나의 피크(615)를 포함한 확률의 분포를 나타내는 그래프가 도시된다. 정보(610)에 포함된 확률의 분포는, 시간 영역 내에서, 지정된 모션에 의해 발생되는 소리가 식별될 수 있는 확률들을 포함할 수 있다. 일 실시예에 따른 전자 장치는, 적어도 하나의 피크(615)를 식별할 수 있다. 전자 장치는, 적어도 하나의 뉴럴 네트워크(도 1의 제1 뉴럴 네트워크(151))에 기반하여, 도 5의 수학식 1 및/또는 도 5의 수학식 2를 이용하여, 오디오 신호를 수신하여, 피크(615)를 식별할 수 있다. 일 예로, 피크(615)에 포함된 확률의 분포의 값(예, 도 6a의 score)의 최댓값은, 임계 값(455)미만의 값일 수 있다. 전자 장치는 피크(615)의 최댓값에 대응하는 시점을 획득할 수 있다. 상기 획득한 시점은 타구 음이 녹음된 시점에 매칭될 수 있다. 전자 장치는 상기 획득한 시점에 대응하는 프레임을, 적어도 하나의 영상(예, 도 3의 배팅 영상(333))으로부터, 추출할 수 있다. 상기 프레임은 화면(690-1)에 참조될 수 있다. 화면(690-1)은, 전자 장치에 수신된 상기 적어도 하나의 영상에 포함된 복수의 프레임 중, 공이 적어도 하나의 외부 객체에 접촉하여 발생하는 소리가 포함된, 오디오 신호에 대응되는 화면의 일 예일 수 있다. 화면(690-1)은 투구 된 공이 배트에 접촉한 이후의 화면의 일 예일 수 있다. 예를 들어, 화면(690-1)은 종결 프레임(예, 도 4의 제2 시점(452)에 매칭되는 프레임)에 매칭되는 화면일 수 있다. 전자 장치는 피크(615)의 최댓값에 대응하는 시점에 기반하여, 화면(690-1)을 포함한 영상을 획득할 수 있다.

도 6b를 참고하면, 정보(630)내에, 임계 값(455) 이상의 값을 가진 적어도 하나의 피크를 포함한 확률의 분포를 나타내는 그래프가 도시된다. 일 실시예에 따른 전자 장치는 적어도 하나의 뉴럴 네트워크를 이용하여, 오디오 신호를 수신하여, 임계 값(455)을 초과하는 값을 가진 하나의 피크(635)를 식별할 수 있다. 예를 들어, 전자 장치는 식별된 피크(635)로부터, 도 5의 수학식 1 및/또는 수학식 2를 이용하여, 배팅 시점을 획득할 수 있다. 일 예로, 전자 장치는 수신된 영상으로부터, 피크(635)를 이용하여, 배팅 시점을 식별할 수 있다. 예를 들어, 전자 장치는 샷 단위의 영상(예, 도 3의 샷 단위의 영상(330)) 중 적어도 하나의 영상(예, 도 3의 배팅 영상(333))으로부터, 상기 배팅 시점에 대응하는 프레임들을 식별할 수 있다. 상기 식별된 프레임들 중 적어도 하나는 화면(690-2)에 참조될 수 있다. 화면(690-2)은, 투수에 의해 투구 된 공이, 적어도 하나의 외부 객체와 접촉하여 발생하는 소리가 녹음된 오디오 신호에 매칭되는, 비디오 신호의 일부일 수 있다. 전자 장치는, 도 5의 수학식 1 및/또는 수학식 2를 이용하여, 수신된 영상에 포함된 복수의 프레임들 중, 시작 프레임(예, 도 4의 제1 시점(451)에 매칭되는 프레임) 및/또는 종결 프레임(예, 도 4의 제2 시점(452)에 매칭되는 프레임)을 획득할 수 있다. 일 예로, 전자 장치는, 상기 수신된 영상으로부터, 상기 시작 프레임으로부터 상기 종결 프레임까지의 복수의 프레임들로 구성된 영상을 획득할 수 있다. 상기 복수의 프레임들로 구성된 영상은, 배팅 영상으로부터 분할된(segmented) 영상의 일 예일 수 있다.

도 6c를 참고하면, 정보(650)내에, 복수의 피크들을 포함하는 확률의 분포를 나타내는 그래프가 도시된다. 일 실시예에 따른 전자 장치는 적어도 하나의 뉴럴 네트워크를 이용하여, 오디오 신호를 수신하여, 상기 오디오 신호에 포함된 복수의 피크들(653, 655)을 식별할 수 있다. 복수의 피크들(653, 655)은 타구 음, 또는 노이즈(예, 도 4의 노이즈(415, 435) 중 적어도 하나에 매칭될 수 있다. 예를 들어, 피크(653)는, 타구 음에 매칭되는 피크(655)와 동일한 진폭 및/또는 주파수를 포함하는 소리에 관한 특징 정보와 매칭될 수 있다. 일 예로, 피크(653)에 매칭되는 시점은, 영상(예, 도 3의 배팅 영상(333))에 포함된 관객들의 소리가 녹음된 시점일 수 있다. 피크(653)에 매칭되는 화면은 화면(690-4)과 같이, 전자 장치가 적어도 하나의 뉴럴 네트워크(예, 도 1의 제2 뉴럴 네트워크(152))를 이용하여 공을 식별하는 화면일 수 있다. 예를 들어, 전자 장치는, 복수의 피크들을 식별하는 경우, 적어도 하나의 뉴럴 네트워크(예, 도 1의 제2 뉴럴 네트워크(152))에 기반하여, 투구 영상(예, 도 3의 투구 영상(331))에 포함된 비디오 신호를 이용하여 하나의 피크를 선택할 수 있다. 상기 선택된 피크는, 투구 시점에 매칭되는 피크일 수 있다. 상기 선택된 피크에 매칭되는 시점은, 전자 장치가 상기 비디오 신호를 이용하여 획득한 투구 시점에 대응할 수 있다. 예를 들어, 전자 장치는 상기 비디오 신호를 이용하여, 상기 비디오 신호에 포함된 공의 식별 여부에 기반하여, 투구 시점을 획득할 수 있다.

일 실시예에 따른, 전자 장치는 복수의 피크들(653, 655)을 식별하는 경우, 적어도 하나의 뉴럴 네트워크를 기반하여, 비디오 신호로부터 획득한 배팅 시점에 매칭되는 피크(655)를 식별할 수 있다. 전자 장치는 매칭된 피크(655)와 대응하는 시점을 기반하여, 배팅 시점을 획득할 수 있다. 전자 장치는 상기 비디오 신호로부터 투구 시점을 획득하기 위해, 공의 궤적, 스트라이크 존, 투수 위치, 포수 위치 또는 홈 플레이트 중 적어도 하나를 식별할 수 있다. 전자 장치는 상기 식별에 기반하여, 비디오 신호에 포함된 배팅 시점을 획득할 수 있다. 전자 장치가 상기 식별에 기반하여, 복수의 피크들 중 하나를 선택하는 동작은 도 8에서 후술한다. 예를 들어, 상기 배팅 시점을 포함한 프레임은 화면(690-3)에 참조될 수 있다. 일 예로, 전자 장치는 피크(655)에 포함된 시점(예, 도 4의 제1 시점(451) 및 도 4의 제2 시점(452))을 이용하여, 배팅 영상(예, 도 3의 배팅 영상(333))을 분할(segment)할 수 있다.

일 실시예에 따른 전자 장치는 피크(655)로부터, 도 5의 수학식 1을 이용하여, 영상의 시작 시점(예, 도 4의 제1 시점(451)) 및 영상의 종결 시점(예, 도 4의 제2 시점(452))을 추출할 수 있다. 예를 들어, 전자장치는 상기 획득한 시점에 기반하여, 도 5의 수학식 2를 이용하여, 배팅 시점을 획득할 수 있다. 전자 장치는 상기 영상의 시작 시점 및/또는 영상의 종결 시점을 이용하여, 영상을 크롭(crop)할 수 있다. 상기 크롭된 영상은 배팅 시점 및/또는 포구 시점 중 적어도 하나의 시점을 포함할 수 있다. 예를 들어, 상기 영상의 시작 시점은 투수가 공을 던지기 위해 준비하는 상황(situation), 또는 투수와 포수가 사인을 교환하는(exchange signature) 상황 중 적어도 하나의 상황을 포함하는 화면에 매칭될 수 있다. 상기 영상의 종결 시점은 상기 투수가 투구한 공이 적어도 하나의 외부 객체와 접촉한 이후의 상황을 포함하는 화면에 매칭될 수 있다. 상기 접촉한 이후의 상황은, 타자가 돌진하는 상황, 타자가 배트를 던지는 상황, 포수가 땅에 떨어진 공을 줍는 상황, 포수가 공을 던지는 상황, 또는 포수가 홈 플레이트 뒤에 배치된 기구물을 향해(toword) 돌진하는 상황 중 적어도 하나의 상황을 포함할 수 있다.

상술한 바와 같이 일 실시예에 따른 전자 장치는 영상에 포함된 오디오 신호로부터 식별된 피크의 개수에 기반하여, 배팅 시점을 획득하는 동작을 수행할 수 있다. 전자 장치는 오디오 신호로부터 배팅 시점을 획득하기 위해, 영상에 포함된 비디오 신호를 이용할 수 있다. 전자 장치는 오디오 신호로부터 획득한 배팅 시점에 기반하여, 영상을 분할할 수 있다. 전자 장치는 사용자에게 정확한 배팅 시점에 매칭되는 상기 분할된 영상을 제공할 수 있다. 이하 도 7에서, 전자 장치가 영상에 포함된 복수의 객체 중 적어도 하나를 식별하여, 투구 된 공을 추적하는 동작이, 설명된다.

도 7은, 일 실시예에 따른, 전자 장치가 뉴럴 네트워크를 통하여, 객체들을 추출하고, 추출된 객체들을 통해 공의 위치를 추적하는 예시를 도시한다. 도 7의 뉴럴 네트워크는 도 1의 제2 뉴럴 네트워크(152)를 포함할 수 있다. 화면들(710, 720)은 도 3의 투구 영상(331) 및/또는 배팅 영상(333)에 포함될 수 있다.

도 7을 참조하면, 일 실시예에 따른 전자 장치(예, 도 1의 전자 장치(101))는 뉴럴 네트워크(예: 도 1의 제2 뉴럴 네트워크(152))를 이용하여, 투구 영상을 포함하는 화면(710)으로부터, 투구 위치, 포구 위치, 포수 요구 위치를 포함하는 영역을 포함하는 영역(예, Ball-Zone)을 식별할 수 있다. 도 7의 화면(720)과 같이, 일 실시예에 따른 전자 장치는 상기 뉴럴 네트워크를 이용하여 식별된 영역을 시각화할 수 있다. 일 예로 전자 장치는 뉴럴 네트워크를 통해, 투구 추적 장치로부터 정보를 수신할 수 있다. 상기 투구 추적 장치는, 공의 궤적과 관련된 데이터를 획득하는 장치의 일 예일 수 있다. 상기 투구 추적 장치는, 투구 추적 시스템(PTS, pitch tracking system)이거나, 및/또는 투구 추적 시스템을 이루는 장치일 수 있다. 상기 투구 추적 장치는, 경기장 내의 야구공의 움직임을 추적하여 생성된 정보를 제공할 수 있다. 일 실시예에 따르면, 전자 장치는, 통신 회로(예, 도 1의 통신 회로(140))를 통해, 투구 추적 장치와 통신 채널을 수립하여(by establishing), 공의 위치와 관련된 데이터를 획득할 수 있다.

일 실시예에 따른 전자 장치는 뉴럴 네트워크를 이용하여, 투구 영상을 포함하는 화면(710)의 외부 객체를 식별하여, 상기 식별된 외부 객체가 표시된 화면(720)을 획득할 수 있다. 예를 들면, 뉴럴 네트워크는, 홈 플레이트, 타자, 및/또는 포수에 의해 나타나는 Ball-Zone에 포함되는 외부 객체를 식별할 수 있다. 뉴럴 네트워크는, 상기 식별된 외부 객체가 바운드 박스(bounding box), 점, 및/또는 선(line)에 의해 표시된 화면(720)을 나타내는 정보를 출력할 수 있다. 다른 실시예에 따르면, 뉴럴 네트워크는 투구 영상을 포함하는 화면(710)에서, 투구 영상을 제공하는 것이 가능하다면, Ball-zone을 포함하는 화면(예, 화면(720))의 추출 동작을 생략할 수 있다.

일 실시예에 따른 전자 장치는 뉴럴 네트워크를 이용하여, 추출된 화면(710)내에서, 투구와 관련된 시각적 객체를 식별할 수 있다. 예를 들면, 뉴럴 네트워크는, 공, 포수, 타자, 및/또는 홈 플레이트를 식별할 수 있다. 뉴럴 네트워크는, 상기 식별된 외부 객체에 기반하여, 투구 위치(721), 글러브(722), 및/또는 홈 플레이트(723)를 식별할 수 있다.

일 실시예에 따른 전자 장치는 뉴럴 네트워크를 이용하여, 홈 플레이트(723) 및 타자의 신체 조건에 기반하여, 가상의 평면을 포함하는 스트라이크 존(725)을 생성할 수 있다. 뉴럴 네트워크는, 홈 플레이트(723)를 스트라이크 존(725)의 폭으로 하고, 타자의 무릎부터 허리까지를 스트라이크 존(725)의 높이로 하여, 스트라이크 존(725)을 형성할 수 있다.

일 실시예에 따른 전자 장치는, 식별된 투구 위치(721), 글러브(722) 및 홈 플레이트(723)를 포함하는 영상, 이미지, 또는 화면에 공의 궤적(724)을 나타내는 영상 또는 애니메이션을 오버랩시킬 수 있다.

일 실시예에 따른 전자 장치는 샷 단위의 영상(예, 도 3의 샷 단위의 영상(330)) 중 추출된 투구 영상(예, 도 3의 투구 영상(331))으로부터, 공의 이동 궤적, 투구 위치, 포수 요구 위치, 및/또는 포구 위치 중 적어도 하나를 획득할 수 있다. 전자 장치는 상기 투구 영상에 포함된 복수의 프레임들 각각에 캡쳐된 공의 위치를 식별할 수 있다. 전자 장치는, 상기 식별된 공의 위치에 기반하여, 투구 위치, 포수 요구 위치, 포구 위치 또는 배팅 위치 중 적어도 하나를 식별할 수 있다. 전자 장치는 뉴럴 네트워크를 이용하여, 지정된 시점들에서 공의 위치를 식별할 수 있다. 예를 들어, 전자 장치는 투구 영상에 포함된 홈 플레이트 및 타자를 식별하여, 스트라이크 존을 식별할 수 있다. 전자 장치는, 상기 스트라이크 존을 포함하는 평면을 통과하는 공의 위치를 투구 위치로 식별할 수 있다. 전자 장치는 뉴럴 네트워크에 기반하여, 포수의 글러브 및/또는 타자의 배트를 포함하는 외부 객체를 식별하여, 공과 상기 외부 객체가 상호 작용하는 시점을 식별할 수 있다. 상기 상호 작용하는 시점은, 상기 공과 상기 외부 객체가 접촉하는 시점의 일 예일 수 있다. 상기 시점은, 투구 영상 또는 배팅 영상에 포함된 투구 시점, 배팅 시점, 포구 시점 또는 도 4의 피크 값(470)에 매칭되는 시점의 일 예일수 있다. 전자 장치는, 상기 외부 객체와 상호 작용하는 공의 위치를 포구 위치 또는 배팅 위치로 식별할 수 있다.

일 실시예에 따른 전자 장치는, 뉴럴 네트워크를 이용하여, 투구 영상에 포함된 복수의 프레임들에서, 식별된 공의 위치들을 연결하여, 공의 궤적(724)을 획득할 수 있다. 공이 배트에 가려지거나(예, 헛스윙), 또는 공이 공의 색상과 유사한 색상을 가지는 외부 객체와 중첩되는 경우, 뉴럴 네트워크를 이용하여 획득된 공의 궤적(724)이 프레임들에 의해 캡쳐된 공의 움직임을 완전하게 나타내지 않을 수 있다. 전자 장치가 공이 식별되는 시점에 기반하여, 도 6c의 복수의 피크들(653, 655) 중 적어도 하나의 피크를 선택하는 동작은 도 8에서 후술된다.

일 실시예에 따른 전자 장치는, 궤적(724)이 배팅 시점 및/또는 포구 시점 보다 과거의 프레임에서 중단되는(terminated) 경우, 궤적(724)을 배팅 시점 및/또는 포구 시점의 프레임까지 연장할 수 있다. 예를 들어, 전자 장치는 프레임들 사이에서 궤적(724)에 의해 나타나는 공의 이동 속도에 기반하여 궤적(724)을 연장하여, 지정된 소리(예, 배트 및 공 사이의 충돌에 의해 발생되는 소리, 글러브 공 사이의 충돌에 의해 발생되는 소리, 타격 음, 또는 타구 음 중 적어도 하나)가 녹음된 시점의 프레임에서의 공의 위치를 식별할 수 있다. 상기 지정된 소리는 도 4의 피크 값(470)에 매칭될 수 있다. 전자 장치가 궤적(724)을 연장하는 것은, 상기 예시에 제한되지 않으며, 예를 들어, PTS(pitch tracking system) 정보에 기반하여 수행될 수 있다. 상기 PTS 정보는 로그 정보에 포함될 수 있다.

도 8은, 일 실시예에 따른, 전자 장치가 비디오 신호에 기반하여 식별되는 공의 궤적을 이용하여, 오디오 신호에 포함된 복수의 피크들 중 하나의 피크를 선택하는 동작을 설명하기 위한 예시를 도시한다. 도 8의 전자 장치는 도 1의 전자 장치(101)에 참조될 수 있다. 정보(650)는 도 6c의 정보(650)에 대응할 수 있다. 복수의 피크들(653, 655)은 도 6c의 복수의 피크들(653, 655)에 대응할 수 있다. 전자 장치는, 배팅 영상(예, 도 3의 배팅 영상(333))에 포함된 오디오 신호로부터 확률의 분포를 획득하기 위해, 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))를 이용할 수 있다. 전자 장치는, 투구 영상(예, 도 3의 투구 영상(331))에 포함된 비디오 신호로부터 공의 궤적(예, 도 7의 궤적(724))을 획득하기 위해, 상기 뉴럴 네트워크와 상이한 뉴럴 네트워크(예, 도 1의 제2 뉴럴 네트워크(152))를 이용할 수 있다. 도 8을 참고하면, 정보(810)에 포함된 공이 식별되는 확률의 분포를 시간 영역에 따라 나타내는 그래프가 도시된다.

일 실시예에 따른 전자 장치는 투구 영상에 포함된 복수의 프레임들에서 캡쳐된 복수의 외부 객체(예, 도 7의 투구 위치(721), 도 7의 글러브(722), 도 7의 홈 플레이트(723) 및/또는 도 7의 스트라이크 존(725) 중 적어도 하나)를 식별하는 것에 기반하여, 공의 궤적을 획득할 수 있다. 전자 장치는 적어도 하나의 뉴럴 네트워크를 이용하여, 상기 공의 궤적을 이용하여, 시간 영역 내에서 공이 식별되는 확률의 분포를 획득할 수 있다. 예를 들어, 전자 장치는 상기 확률의 분포 중 공이 식별되는 제1 구간(830)에서, 1(예, score 값)을 획득할 수 있다. 전자 장치는 상기 확률의 분포 중 공이 식별되지 않는 제2 구간(850)에서 0을 획득할 수 있다. 일 예로, 전자 장치가 공을 식별하지 못하는 경우는, 공이 배트에 가려지는 경우, 공이 공의 색상과 유사한 색상을 가지는 외부 객체와 중첩되는 경우 중 적어도 하나의 경우, 또는 공이 외부 객체와 접촉하여 투구 영상에서 사라지는 경우 중 적어도 하나의 경우를 포함할 수 있다.

일 실시예에 따른 정보(650) 및 정보(810)는 동일한 시간 영역을 포함할 수 있다. 예를 들어, 피크(653)에 매칭되는 시점은, 제1 구간(830)에 대응되는 시간 영역에 포함될 수 있다. 상기 시간 영역은 복수의 시점들을 포함할 수 있다. 피크(655)에 매칭되는 시점은, 제2 구간(850)에 대응되는 시간 영역에 포함될 수 있다. 전자 장치는 제1 구간(830)에서 뉴럴 네트워크(예, 도 1의 제2 뉴럴 네트워크(152))를 이용하여 공을 식별하는 동안, 상기 뉴럴 네트워크와 상이한 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))를 이용하여, 오디오 신호에 포함된 피크(653)를 식별할 수 있다. 전자 장치는 식별된 피크(653)는 공이 외부 객체와 접촉하여 발생하는 소리가 아닌 것을 식별할 수 있다. 일 예로, 피크(653)는 공이 외부 객체와 접촉하여 발생하는 소리와 유사한 주파수 및/또는 진폭을 포함한 소리의 특징 정보를 의미할 수 있다.

일 실시예에 따른 전자 장치는 제2 구간(850)에 대응하는 시간 영역 내에서, 뉴럴 네트워크를 이용하여, 공을 식별하지 못하는 동안, 상기 뉴럴 네트워크와 상이한 뉴럴 네트워크를 이용하여, 오디오 신호에 포함된 피크(655)를 식별할 수 있다. 전자 장치는 피크(655)를 타구 음에 매칭되는 소리로 식별할 수 있다. 전자 장치는, 도 5의 수학식 1 및/또는 도 5의 수학식 2를 이용하여, 피크(655)에 매칭되는 시점들(예, 도 4의 제1 시점(451), 도 4의 제2 시점(452))에 기반하여, 투구 영상, 배팅 영상, 포구 영상 또는 상기 영상들에 포함된 비디오 신호 중 적어도 하나를 분할할 수 있다. 상기 분할된 영상들 또는 상기 분할된 비디오 신호는, 상기 시점들에 대응하는 시간 영역에 대응하는 영상, 또는 상기 시점들에 대응하는 프레임들의 집합 중 어느 하나일 수 있다.

도 9는, 일 실시예에 따른 전자 장치가, 지정된 모션이 캡쳐된 시점을 검출하기위한 동작을 설명하기 위한 흐름도이다. 도 9의 동작은 도 1의 전자 장치(101) 및/또는 도 1의 프로세서(110)에 의해 수행될 수 있다.

도 9를 참고하면, 동작 910에서, 일 실시예에 따른 프로세서는, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신할 수 있다. 멀티미디어 콘텐트는 도 3의 샷 단위의 영상(330)을 포함할 수 있다. 상기 지정된 모션은 투수가 공을 투구하는 모션 또는 글러브 및/또는 배트에 상기 공이 접촉하는 모션 중 적어도 하나를 포함할 수 있다. 상기 지정된 모션이 캡쳐된 시점은 투구 영상에 포함된 투구 시점, 포구 시점, 및/또는 배팅 시점을 포함할 수 있다. 검출하라는 요청은 전자 장치의 사용자에 의한 입력을 의미할 수 있다.

도 9를 참고하면, 동작 920에서, 일 실시예에 따른 프로세서는, 멀티미디어 콘텐트 내 오디오 신호에 기반하여, 시간 영역 내에서 지정된 모션이 수행된 확률의 분포를 획득할 수 있다. 예를 들어, 오디오 신호는 도 4의 오디오 신호(410)에 대응될 수 있다. 확률의 분포는 도 4의 정보(450)에 포함될 수 있다. 예를 들어, 프로세서는 적어도 하나의 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))에 기반하여, 상기 오디오 신호를, 시간 영역 내에서, 확률의 분포로 획득할 수 있다. 상기 확률의 분포는 시간 영역 내에 포함된 각각의 시점들에 매칭되는, 지정된 모션에 의해 발생된 소리가 식별되는 확률들의 집합을 의미할 수 있다.

도 9를 참고하면, 동작 930에서, 일 실시예에 따른 프로세서는 상기 획득된 분포 내에서 복수의 피크 값들을 식별하는 것에 기반하여, 상기 멀티미디어 콘텐트 내에서, 상기 오디오 신호에 동기화된 비디오 신호를 이용하여, 상기 복수의 피크 값들에 대응하는 복수의 시점들 중에서 상기 지정된 모션이 캡쳐된 하나의 시점을 획득할 수 있다. 복수의 피크 값들은 도 6c의 복수의 피크들(653, 655)에 대응되는 값을 의미할 수 있다. 상기 복수의 피크들에 대응되는 값은 상기 복수의 피크들의 값 중 최댓값을 의미할 수 있다. 비디오 신호는, 프로세서가 적어도 하나의 뉴럴 네트워크(예, 도 1의 제2 뉴럴 네트워크(152))에 기반하여, 공의 궤적(예, 도 7의 궤적(724))이 식별된 정보를 포함할 수 있다. 오디오 신호에 동기화된 비디오 신호는, 도 8에서, 정보(650)에 포함된 동일한 시간 영역에 매칭되는 정보(810)에 포함된 시간 영역을 의미할 수 있다. 프로세서는, 도 8의 제2 구간(850)에 대응하는 시간 동안 발생한, 도 8의 피크(655)를 타구 음에 대응하는 정보로 식별할 수 있다. 프로세서는 상기 적어도 하나의 뉴럴 네트워크와 상이한 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))에 기반하여, 도 5의 수학식 1 및/또는 도 5의 수학식 2를 이용하여, 상기 타구 음에 매칭되는 시점을 획득할 수 있다. 상기 타구 음은, 타격 음, 공이 글러브, 배트, 홈 플레이트, 또는 기구물 중 적어도 하나를 포함하는 외부객체와의 상호작용에 의해 발생하는 소리를 포함할 수 있다. 예를 들어, 프로세서는 상기 도 5의 수학식 1 및/또는 상기 도 5의 수학식 2를 이용하여, 획득한 시점에 기반하여, 영상(예, 도 3의 투구 영상(331), 또는 도 3의 배팅 영상(333))을 분할할 수 있다.

도 10은, 일 실시예에 따른, 전자 장치가, 피크 개수에 기반한 동작을 설명하기 위한 흐름도이다. 도 10의 동작은 도 1의 전자 장치(101) 및/또는 도 1의 프로세서(110)에 의해 수행될 수 있다.

도 10을 참고하면, 동작 1010에서, 일 실시예에 따른 프로세서는, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신할 수 있다. 프로세서는 동작 1010을, 도 9의 동작 910과 유사하게 수행할 수 있다.

도 10을 참고하면, 동작 1020에서, 일 실시예에 따른 프로세서는, 상기 요청의 수신에 기반하여, 상기 멀티미디어 콘텐트 내 오디오 신호 내에서, 상기 지정된 모션에 의해 야기되는 소리가 캡쳐된 시점을 식별할 수 있다. 예를 들어, 상기 오디오 신호는, 도 4의 오디오 신호(410) 및/또는 도 4의 특징 정보(430)를 포함할 수 있다. 프로세서는 적어도 하나의 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))를 이용하여, 상기 오디오 신호에 기반하여, 확률의 분포(예, 도 4의 정보(450)에 포함된 확률의 분포)를 획득할 수 있다. 상기 지정된 모션은 공을 투구하는 모션 또는 적어도 하나의 외부 객체에 상기 공이 상호작용하는 모션 중 적어도 하나를 포함할 수 있다. 상기 지정된 모션에 의해 야기되는 소리는, 공이 적어도 하나의 외부 객체와 접촉하여 발생하는 소리의 일 예일 수 있다. 예를 들어, 상기 캡쳐된 시점은, 도 4의 피크 값(470)에 대응되는 시점일 수 있다.

도 10을 참고하면, 동작 1030에서, 일 실시예에 따른 프로세서는, 상기 오디오 신호 내에서, 임계 값 이상의 시점을 식별하는지 여부를 확인할 수 있다. 예를 들어, 상기 임계 값은 도 4의 임계 값(455)에 참조될 수 있다. 상기 임계 값 이상의 시점은 도 4의 피크 값(470)에 상응할 수 있다.

도 10을 참고하면, 상기 오디오 신호 내에서, 임계 값 이상의 시점을 식별하지 못하는 경우(1030-아니오), 동작 1040에서, 일 실시예에 따른 프로세서는 임계 값 미만의 시점을 식별하는 것에 응답하여, 상기 식별된 시점이 상기 지정된 모션이 캡쳐된 시점임을 나타내는 정보를 출력할 수 있다. 상기 식별된 시점은, 도 6a의 피크(615)에 매칭될 수 있다. 상기 지정된 모션이 캡쳐된 시점임을 나타내는 정보는, 피크에 대응하는 배팅 시점을 의미할 수 있다. 프로세서는 적어도 하나의 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))에 기반하여, 도 5의 수학식 1 및/또는 도 5의 수학식 2를 이용하여, 배팅 시점을 획득할 수 있다.

도 10을 참고하면, 상기 오디오 신호 내에서, 임계 값 이상의 시점을 식별한 경우(1030-예), 동작 1050에서, 일 실시예에 따른 프로세서는 복수의 임계 값 이상의 시점들을 식별하는지 여부를 판단할 수 있다. 예를 들어, 프로세서는 임계 값 이상의 시점들에 개수에 기반하여, 비디오 신호를 이용할지 여부를 식별할 수 있다.

도 10을 참고하면, 복수의 임계 값 이상의 시점들을 식별하는 경우(1050-예), 동작 1060에서, 일 실시예에 따른 프로세서는 임계 값 이상의 시점들을 식별하는 것에 응답하여, 상기 시점들을 포함하는 상이한 시간 구간들 내 비디오 신호에 기반하여, 상기 시점들 중 어느 한 시점을 상기 지정된 모션이 캡쳐된 시점으로 선택할 수 있다. 상기 비디오 신호는 도 8의 정보(810)를 포함할 수 있다. 상기 시점들은 도 6c의 피크들(653, 655)에 참조될 수 있다. 상기 상이한 시간 구간들은 도 8의 제1 구간(830) 및/또는 제2 구간(850)에 대응할 수 있다.

도 10을 참고하면, 복수의 임계 값 이상의 시점들을 식별하지 못하는 경우(1050-아니오), 동작 1070에서, 일 실시예에 따른 프로세서는 하나의 임계 값 이상의 시점을 식별하는 것에 응답하여, 상기 시점을 상기 지정된 모션이 캡쳐된 시점으로 식별할 수 있다. 예를 들어, 상기 하나의 임계 값 이상의 시점은 도 6b의 피크(635)에 매칭될 수 있다.

도 11은, 일 실시예에 따른, 전자 장치가, 뉴럴 네트워크를 이용하여, 영상으로부터 지정된 모션이 캡쳐된 영상을 추출하기위한 동작을 설명하기 위한 흐름도이다. 도 11의 동작은 도 1의 전자 장치(101) 및/또는 도 1의 프로세서(110)에 의해 수행될 수 있다.

도 11을 참고하면, 동작 1110에서, 일 실시예에 따른 프로세서는, 복수의 뉴럴 네트워크 중 제1 뉴럴 네트워크를 이용하여, 영상을, 샷 단위에 따라 그룹핑하여 분할할 수 있다. 예를 들어, 제1 뉴럴 네트워크는 도 1의 제3 뉴럴 네트워크(153)에 참조될 수 있다. 영상은, 도 3의 영상(310)에 매칭될 수 있다. 샷 단위에 따라 그룹핑하여 분할된 영상은 도 3의 샷 단위의 영상(330)에 매칭될 수 있다. 일 예로, 프로세서는, 영상을 투구 영상, 광고 영상, 호수비(fine play) 영상, 광고 영상, 관중석 영상 및/또는 덕아웃 영상을 그룹핑 하여 분할할 수 있다.

도 11을 참고하면, 동작 1120에서, 일 실시예에 따른 프로세서는, 상기 분할된 그룹 중 투구 영상에 대응하는 하나 이상의 멀티미디어 콘텐트를 식별할 수 있다. 상기 투구 영상에 대응하는 하나 이상의 멀티미디어 콘텐트는 도 3의 투구 영상(331) 또는 도 3의 배팅 영상(333) 중 적어도 하나의 영상을 포함할 수 있다. 예를 들어, 프로세서는 영상으로부터 뉴럴 네트워크에 기반하여, 배팅 영상, 투구 영상, 광고 영상, 덕아웃 영상, 및/또는 관중석 영상을 추출할 수 있다.

도 11을 참고하면, 동작 1130에서, 일 실시예에 따른 프로세서는, 제2 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트에 포함된 오디오 신호에 기반하여, 복수의 피크들이 포함된 확률의 분포를 획득할 수 있다. 제2뉴럴 네트워크는 도 1의 제1 뉴럴 네트워크(151)에 참조될 수 있다. 상기 오디오 신호는, 도 4의 오디오 신호(410) 및/또는 도 4의 특징 정보(430)를 포함할 수 있다. 상기 복수의 피크들이 포함된 확률의 분포는, 도 4의 정보(450), 도 6a의 정보(610), 도 6b의 정보(630), 및/또는 도 6c의 정보(650)에 포함될 수 있다. 복수의 피크들은, 도 4의 피크 값(470)을 포함할 수 있다. 상기 복수의 피크들은, 도 6c의 복수의 피크들(653, 655)에 매칭될 수 있다.

도 11을 참고하면, 동작 1140에서, 일 실시예에 따른 프로세서는, 제3 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트에 포함된 공의 궤적, 글러브, 홈 플레이트, 스트라이크 존 중 적어도 하나가 식별된 시점을 획득할 수 있다. 제3 뉴럴 네트워크는 도 1의 제2 뉴럴 네트워크(152)에 참조될 수 있다. 공의 궤적은 도 7의 궤적(724)에 참조될 수 있다. 글러브는 도 7의 글러브(722)에 매칭될 수 있다. 홈 플레이트는 도 7의 홈 플레이트(723)에 참조될 수 있다. 스트라이크 존은 도 7의 스트라이크 존(725)에 참조될 수 있다. 상기 적어도 하나가 식별된 시점은, 도 8의 제1 구간(830)에 포함될 수 있다.

도 11을 참고하면, 동작 1150에서, 일 실시예에 따른 프로세서는, 상기 복수의 피크들에 대응하는 시점 중 상기 식별된 시점과 상이한 시점에 매칭되는 피크를 선택할 수 있다. 상기 식별된 시점과 상이한 시점은, 도 8의 제2 구간(850)에 포함될 수 있다. 상기 상이한 시점에 매칭되는 피크는, 도 8의 피크(655)에 참조될 수 잇다.

도 11을 참고하면, 동작 1160에서, 일 실시예에 따른 프로세서는, 상기 선택된 피크에 대응하는 시점에 매칭되는 상기 멀티미디어 콘텐트와 상이한 콘텐트를 획득할 수 있다. 프로세서는 적어도 하나의 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))에 기반하여, 도 5의 수학식 1 및/또는 도 5의 수학식 2를 이용하여, 상기 선택된 피크에 대응하는 시점을 획득할 수 있다. 상기 대응하는 시점은, 도 4의 제1 시점(451) 부터 도 4의 제2 시점(452)에 매칭되는 시간 영역을 의미할 수 있다. 상기 상이한 콘텐트는 투구 영상, 포구 영상, 또는 배팅 영상 중 적어도 하나를 포함할 수 있다.

상술한 바와 같이, 일 실시예에 따른 전자 장치의 프로세서는, 뉴럴 네트워크에 기반하여, 영상을 샷 단위의 영상으로 그룹핑할 수 있다. 프로세서는, 상기 그룹핑된 샷 단위의 영상 중 일부를 수신하여, 다른 뉴럴 네티워크에 기반하여, 상기 영상에 포함된 비디오 신호를 이용하여, 투구 영상 정보를 획득할 수 있다. 프로세서는, 상기 영상에 포함된 오디오 신호를 이용하여, 또 다른 뉴럴 네트워크에 기반하여, 상기 획득한 투구 영상 정보를 조정할 수 있다. 프로세서는, 상기 조정된 투구 영상 정보를 사용자에게 제공할 수 있다.

예를 들어, 상기 복수의 피크 값들 중 적어도 하나의 피크 값은, 상기 확률의 분포 내에서, 임계 값에 매칭되는 제1 시점 및 제2 시점 사이에 포함된 복수의 값들 중 가장 큰 값에 매칭될 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 뉴럴 네트워크를 이용하여, 상기 오디오 신호에 기반하여, 특징 정보에 포함된, 상기 복수의 피크 값들이 식별되는 확률을 이용하여, 상기 시간 영역에 대응하는 상기 확률의 분포를 획득할 수 있다.

예를 들어, 상기 뉴럴 네트워크는, 제1 뉴럴 네트워크일 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 상기 제1 뉴럴 네트워크와 상이한 제2 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트로부터, 공의 궤적, 글러브의 위치, 홈 플레이트 또는 스트라이크 존 중 적어도 하나를 식별하는 것에 기반하여, 상기 비디오 신호를 획득할 수 있다.

예를 들어, 상기 특징 정보는, 상기 오디오 신호로부터, 상기 시간 영역 내에서, 상기 오디오 신호의 주파수, 또는 진폭 중 적어도 하나에 기반할 수 있다.

예를 들어, 상기 제1 시점은, 상기 확률의 분포의 기울기가 양수인 시점일 수 있다. 상기 제2 시점은, 상기 확률의 분포의 기울기가 음수인 시점일 수 있다.

예를 들어, 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 상기 제1 시점으로부터 상기 제2 시점까지의 시간 동안, 상기 비디오 신호를 분할한(segmented) 상기 멀티미디어 콘텐트와 상이한 콘텐트를 획득할 수 있다. 상기 시간은, 상기 지정된 모션이 캡쳐된 하나의 시점을 포함할 수 있다.

예를 들어, 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 제3 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트로부터, 투구 화면, 또는 포구 화면 중 적어도 하나를 획득할 수 있다.

예를 들어, 상기 복수의 피크 값들 중 적어도 하나의 피크 값은, 상기 비디오 신호에 포함된, 글러브, 또는 배트를 포함하는 외부 객체와 공의 접촉에 의해 야기되는 소리가 캡쳐된 시점에 대응할 수 있다. 상기 지정된 모션은, 상기 공을 투구하는 모션, 또는 상기 글러브 또는 상기 배트에 상기 공이 접촉하는 모션을 포함할 수 있다.

예를 들어, 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 상기 비디오 신호로부터, 상기 확률의 분포 내에서, 임계 값 이하의 적어도 하나의 값을 식별할 수 있다. 상기 적어도 하나의 프로세서는, 상기 시간 영역 내에서, 상기 특징 정보에 포함된, 상기 임계 값 이하의 적어도 하나의 값 중 가장 큰 값을 피크 값으로 식별할 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 상기 식별된 피크 값에 대응하는 시점을 획득할 수 있다.

예를 들어, 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 상기 비디오 신호로부터, 상기 확률의 분포 내에서, 임계 값을 초과하는 하나의 피크 값을 식별할 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 상기 하나의 피크 값에 대응하는 시점을 획득할 수 있다.

예를 들어, 상기 복수의 피크 값들 중 적어도 하나의 피크 값은, 상기 확률의 분포 내에서, 임계 값에 매칭되는 제1 시점 및 제2 시점 사이에 포함된 복수의 값들 중 가장 큰 값에 매칭될 수 있다. 상기 전자 장치의 방법은, 뉴럴 네트워크를 이용하여, 상기 오디오 신호에 기반하여, 특징 정보에 포함된, 상기 복수의 피크 값들이 식별되는 확률을 이용하여, 상기 시간 영역에 대응하는 상기 확률의 분포를 획득하는 동작을 포함할 수 있다.

예를 들어, 상기 뉴럴 네트워크는, 제1 뉴럴 네트워크일 수 있다. 상기 전자 장치의 방법은, 상기 제1 뉴럴 네트워크와 상이한 제2 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트로부터, 공의 궤적, 글러브의 위치, 홈 플레이트 또는 스트라이크 존 중 적어도 하나를 식별하는 것에 기반하여, 상기 비디오 신호를 획득하는 동작을 포함할 수 있다.

예를 들어, 상기 제1 시점으로부터 상기 제2 시점까지의 시간 동안, 상기 비디오 신호를 분할한(segmented) 상기 멀티미디어 콘텐트와 상이한 콘텐트를 획득하는 동작을 포함할 수 있다. 상기 시간은, 상기 지정된 모션이 캡쳐된 하나의 시점을 포함할 수 있다.

예를 들어, 제3 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트로부터, 투구 화면, 또는 포구 화면 중 적어도 하나를 획득하는 동작을 포함할 수 있다.

일 실시예에 따른 전자 장치(electronic device)의 방법은, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 요청의 수신에 기반하여, 상기 멀티미디어 콘텐트 내 오디오 신호 내에서, 상기 지정된 모션에 의해 야기되는(caused by) 소리가 캡쳐된 시점을 식별하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 오디오 신호 내에서, 임계 값 미만의 시점을 식별하는 것에 응답하여, 상기 식별된 시점이 상기 지정된 모션이 캡쳐된 시점임을 나타내는 정보를 출력하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 오디오 신호 내에서, 임계 값 이상의 시점들을 식별하는 것에 응답하여, 상기 시점들을 포함하는 상이한 시간 구간들 내 비디오 신호에 기반하여, 상기 시점들 중 어느 한 시점을, 상기 지정된 모션이 캡쳐된 시점으로 선택하는 동작을 포함할 수 있다.

예를 들어, 상기 전자 장치의 방법은, 뉴럴 네트워크를 이용하여, 상기 오디오 신호에 기반하여, 상기 임계 값 이상의 시점이 식별되는 확률의 분포를 획득하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 확률의 분포를 이용하여, 상기 비디오 신호에 기반하여, 상기 지정된 모션이 캡쳐된 시점을 포함하는, 상기 멀티미디어 콘텐트와 상이한 콘텐트를 획득하는 동작을 포함할 수 있다.

예를 들어, 상기 지정된 모션에 의해 야기되는 소리는, 적어도 하나의 외부 객체 및 공의 접촉에 의해 발생하는 소리일 수 있다. 상기 지정된 모션은, 투구 또는 포구 모션 중 적어도 하나를 포함할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

전자 장치(electronic device)에 있어서,

인스트럭션들을 저장하기 위한 메모리; 및

상기 메모리와 작동적으로 결합된(operably coupled to) 적어도 하나의 프로세서를 포함하고,

상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에,

멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신하고;

상기 멀티미디어 콘텐트 내 오디오 신호에 기반하여, 시간 영역 내에서(in a time domain) 상기 지정된 모션이 수행된 확률의 분포를 획득하고; 및

상기 획득된 분포 내에서 복수의 피크 값들을 식별하는 것에 기반하여, 상기 멀티미디어 콘텐트 내에서, 상기 오디오 신호에 동기화된 비디오 신호를 이용하여, 상기 복수의 피크 값들에 대응하는 복수의 시점들 중에서, 상기 지정된 모션이 캡쳐된 하나의 시점을 획득하는,

전자 장치.
제1항에 있어서,

상기 복수의 피크 값들 중 적어도 하나의 피크 값은,

상기 확률의 분포 내에서, 임계 값에 매칭되는 제1 시점 및 제2 시점 사이에 포함된 복수의 값들 중 가장 큰 값에 매칭되고, 및

상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 뉴럴 네트워크를 이용하여, 상기 오디오 신호에 기반하여, 특징 정보에 포함된, 상기 복수의 피크 값들이 식별되는 확률을 이용하여, 상기 시간 영역에 대응하는 상기 확률의 분포를 획득하는,

전자 장치.
제2항에 있어서,

상기 뉴럴 네트워크는, 제1 뉴럴 네트워크이고,

상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에,

상기 제1 뉴럴 네트워크와 상이한 제2 뉴럴 네트워크를 이용하여,

상기 멀티미디어 콘텐트로부터, 공의 궤적, 글러브의 위치, 홈 플레이트 또는 스트라이크 존 중 적어도 하나를 식별하는 것에 기반하여, 상기 비디오 신호를 획득하는,

전자 장치.
제2항에 있어서,

상기 특징 정보는,

상기 오디오 신호로부터, 상기 시간 영역 내에서, 상기 오디오 신호의 주파수, 또는 진폭 중 적어도 하나에 기반하는,

전자 장치.
제2항에 있어서,

상기 제1 시점은,

상기 확률의 분포의 기울기가 양수인 시점이고, 및

상기 제2 시점은,

상기 확률의 분포의 기울기가 음수인 시점인,

전자 장치.
제5항에 있어서,

상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에,

상기 제1 시점으로부터 상기 제2 시점까지의 시간 동안, 상기 비디오 신호를 분할한(segmented) 상기 멀티미디어 콘텐트와 상이한 콘텐트를 획득하고, 및

상기 시간은,

상기 지정된 모션이 캡쳐된 하나의 시점을 포함하는,

전자 장치.
제3항에 있어서,

상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에,

제3 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트로부터, 투구 화면, 또는 포구 화면 중 적어도 하나를 획득하는,

전자 장치.
제1항에 있어서,

상기 복수의 피크 값들 중 적어도 하나의 피크 값은,

상기 비디오 신호에 포함된, 글러브, 또는 배트를 포함하는 외부 객체와 공의 접촉에 의해 야기되는 소리가 캡쳐된 시점에 대응하고, 및

상기 지정된 모션은,

상기 공을 투구하는 모션, 또는 상기 글러브 또는 상기 배트에 상기 공이 접촉하는 모션을 포함하는,

전자 장치.
제2항에 있어서,

상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에,

상기 비디오 신호로부터, 상기 확률의 분포 내에서, 임계 값 이하의 적어도 하나의 값을 식별하고,

상기 시간 영역 내에서, 상기 특징 정보에 포함된, 상기 임계 값 이하의 적어도 하나의 값 중 가장 큰 값을 피크 값으로 식별하고,

상기 식별된 피크 값에 대응하는 시점을 획득하는,

전자 장치.
제2항에 있어서,

상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에,

상기 비디오 신호로부터, 상기 확률의 분포 내에서, 임계 값을 초과하는 하나의 피크 값을 식별하고, 및

상기 하나의 피크 값에 대응하는 시점을 획득하는,

전자 장치.
전자 장치의 방법에 있어서,

멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신하는 동작;

상기 멀티미디어 콘텐트 내 오디오 신호에 기반하여, 시간 영역 내에서(in a time domain) 상기 지정된 모션이 수행된 확률의 분포를 획득하는 동작; 및

상기 획득된 분포 내에서 복수의 피크 값들을 식별하는 것에 기반하여, 상기 멀티미디어 콘텐트 내에서, 상기 오디오 신호에 동기화된 비디오 신호를 이용하여, 상기 복수의 피크 값들에 대응하는 복수의 시점들 중에서, 상기 지정된 모션이 캡쳐된 하나의 시점을 획득하는 동작을 포함하는,

방법.
제11항에 있어서,

상기 복수의 피크 값들 중 적어도 하나의 피크 값은,

상기 확률의 분포 내에서, 임계 값에 매칭되는 제1 시점 및 제2 시점 사이에 포함된 복수의 값들 중 가장 큰 값에 매칭되고, 및

뉴럴 네트워크를 이용하여, 상기 오디오 신호에 기반하여, 특징 정보에 포함된, 상기 복수의 피크 값들이 식별되는 확률을 이용하여, 상기 시간 영역에 대응하는 상기 확률의 분포를 획득하는 동작을 포함하는,

방법.
제12항에 있어서,

상기 뉴럴 네트워크는, 제1 뉴럴 네트워크이고,

상기 제1 뉴럴 네트워크와 상이한 제2 뉴럴 네트워크를 이용하여,

상기 멀티미디어 콘텐트로부터, 공의 궤적, 글러브의 위치, 홈 플레이트 또는 스트라이크 존 중 적어도 하나를 식별하는 것에 기반하여, 상기 비디오 신호를 획득하는 동작을 포함하는,

방법.
제12항에 있어서,

상기 특징 정보는,

상기 오디오 신호로부터, 상기 시간 영역 내에서, 상기 오디오 신호의 주파수, 또는 진폭 중 적어도 하나에 기반하는,

방법.
제12항에 있어서,

상기 제1 시점은,

상기 확률의 분포의 기울기가 양수인 시점이고, 및

상기 제2 시점은,

상기 확률의 분포의 기울기가 음수인 시점인,

방법.
제15항에 있어서,

상기 제1 시점으로부터 상기 제2 시점까지의 시간 동안, 상기 비디오 신호를 분할한(segmented) 상기 멀티미디어 콘텐트와 상이한 콘텐트를 획득하는 동작을 포함하고, 및

상기 시간은,

상기 지정된 모션이 캡쳐된 하나의 시점을 포함하는,

방법.
제13항에 있어서,

제3 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트로부터, 투구 화면, 또는 포구 화면 중 적어도 하나를 획득하는 동작을 포함하는,

방법.
전자 장치(electronic device)의 방법에 있어서,

멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신하는 동작;

상기 요청의 수신에 기반하여, 상기 멀티미디어 콘텐트 내 오디오 신호 내에서, 상기 지정된 모션에 의해 야기되는(caused by) 소리가 캡쳐된 시점을 식별하는 동작;

상기 오디오 신호 내에서, 임계 값 미만의 시점을 식별하는 것에 응답하여, 상기 식별된 시점이 상기 지정된 모션이 캡쳐된 시점임을 나타내는 정보를 출력하는 동작; 및

상기 오디오 신호 내에서, 임계 값 이상의 시점들을 식별하는 것에 응답하여, 상기 시점들을 포함하는 상이한 시간 구간들 내 비디오 신호에 기반하여, 상기 시점들 중 어느 한 시점을, 상기 지정된 모션이 캡쳐된 시점으로 선택하는 동작을 포함하는,

방법.
제18항에 있어서,

뉴럴 네트워크를 이용하여, 상기 오디오 신호에 기반하여, 상기 임계 값 이상의 시점이 식별되는 확률의 분포를 획득하는 동작, 및

상기 확률의 분포를 이용하여, 상기 비디오 신호에 기반하여, 상기 지정된 모션이 캡쳐된 시점을 포함하는, 상기 멀티미디어 콘텐트와 상이한 콘텐트를 획득하는 동작을 포함하는,

방법.
제18항에 있어서,

상기 지정된 모션에 의해 야기되는 소리는,

적어도 하나의 외부 객체 및 공의 접촉에 의해 발생하는 소리이고,

상기 지정된 모션은,

투구 또는 포구 모션 중 적어도 하나를 포함하는,

방법.