WO2023243754A1 - 지정된 모션이 캡쳐된 시점을 추출하는 전자 장치 및 방법 - Google Patents

지정된 모션이 캡쳐된 시점을 추출하는 전자 장치 및 방법 Download PDF

Info

Publication number
WO2023243754A1
WO2023243754A1 PCT/KR2022/008660 KR2022008660W WO2023243754A1 WO 2023243754 A1 WO2023243754 A1 WO 2023243754A1 KR 2022008660 W KR2022008660 W KR 2022008660W WO 2023243754 A1 WO2023243754 A1 WO 2023243754A1
Authority
WO
WIPO (PCT)
Prior art keywords
time
electronic device
neural network
point
captured
Prior art date
Application number
PCT/KR2022/008660
Other languages
English (en)
French (fr)
Inventor
김영익
이영현
이준수
정현조
Original Assignee
주식회사 엔씨소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엔씨소프트 filed Critical 주식회사 엔씨소프트
Priority to PCT/KR2022/008660 priority Critical patent/WO2023243754A1/ko
Publication of WO2023243754A1 publication Critical patent/WO2023243754A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Definitions

  • Embodiments disclosed in this document relate to an electronic device and method for extracting a point in time when a specified motion was captured.
  • Electronic devices are being developed that provide content by extracting images in which specified motions are captured from images in order to attract viewers' interest.
  • the electronic device may extract an image in which a specified motion is captured from a sports game video and provide a highlight video after the game ends.
  • the electronic device may use the audio signal included in the video to identify the point in time at which a specified motion was captured from the video.
  • An electronic device may include a memory for storing instructions, and at least one processor operably coupled to the memory.
  • the at least one processor may receive a request to detect a point in time when a specified motion is captured from multimedia content.
  • the at least one processor may obtain a distribution of the probability that the specified motion has been performed in a time domain based on the audio signal in the multimedia content.
  • the at least one processor based on identifying a plurality of peak values within the obtained distribution, uses a video signal synchronized to the audio signal within the multimedia content to Among a plurality of viewpoints, one viewpoint at which the specified motion is captured can be obtained.
  • a method of an electronic device may include receiving a request to detect a point in time at which a specified motion was captured from multimedia content.
  • the method of the electronic device may include an operation of obtaining a distribution of the probability that the specified motion has been performed in a time domain, based on the audio signal in the multimedia content.
  • the method of the electronic device includes, based on identifying a plurality of peak values within the obtained distribution, within the multimedia content, using a video signal synchronized to the audio signal, corresponding to the plurality of peak values.
  • the operation may include obtaining one viewpoint at which the specified motion is captured.
  • a method of an electronic device may include receiving a request to detect a point in time at which a specified motion was captured from multimedia content.
  • the method of the electronic device may include, based on receipt of the request, identifying a point in time at which a sound caused by the specified motion was captured within an audio signal in the multimedia content.
  • the method of the electronic device may include, in response to identifying a time point below a threshold within the audio signal, outputting information indicating that the identified time point is a time point at which the specified motion was captured.
  • the method of the electronic device in response to identifying, within the audio signal, viewpoints above a threshold, selects, based on the video signal within different time intervals containing the viewpoints, one of the viewpoints, It may include an action of selecting the point in time when the specified motion was captured.
  • the electronic device can more accurately obtain the point in time at which the specified motion was captured within the time domain based on at least one of a video signal or an audio signal included in the image.
  • FIG. 1 is a block diagram of an electronic device, according to an embodiment.
  • FIG. 2 illustrates an example for explaining a neural network that an electronic device acquires from a set of parameters stored in a memory, according to an embodiment.
  • FIG. 3 illustrates an example to explain an operation in which an electronic device extracts an image in which a specified motion is captured from an image, according to an embodiment.
  • FIG. 4 illustrates an example of an operation in which an electronic device identifies the peak value of the probability that a sound related to a specified motion is recorded based on an audio signal included in an image, according to an embodiment.
  • FIG. 5 illustrates an example of an electronic device obtaining a time point corresponding to a peak value within an audio signal, according to an embodiment.
  • FIGS. 6A to 6C illustrate an example for explaining an operation by an electronic device to identify a time point corresponding to a peak value using the number of peak values included in an audio signal, according to an embodiment.
  • FIG. 7 illustrates an example in which an electronic device extracts objects through a neural network and tracks the location of a ball through the extracted objects, according to an embodiment.
  • Figure 8 is an example for explaining an operation in which an electronic device selects one peak among a plurality of peaks included in an audio signal using the trajectory of a ball identified based on a video signal, according to an embodiment. It shows.
  • FIG. 9 is a flowchart illustrating an operation by an electronic device to detect a point in time at which a specified motion is captured, according to an embodiment.
  • FIG. 10 is a flowchart illustrating an operation of an electronic device based on the number of peaks, according to an embodiment.
  • FIG. 11 is a flowchart illustrating an operation by an electronic device to extract an image in which a specified motion is captured from an image using a neural network, according to an embodiment.
  • first or second may be used to describe various components, but the components should not be limited by the terms.
  • the above terms are used only for the purpose of distinguishing one component from another component, for example, a first component may be named a second component, without departing from the scope of rights according to the concept of the present invention, Similarly, the second component may also be referred to as the first component.
  • Figure 1 is a block diagram of an electronic device 101, according to one embodiment.
  • the electronic device 101 may include at least one of a processor 110, a memory 120, or a communication circuit 140.
  • the processor 110, memory 120, and communication circuit 140 may be electrically and/or operatively connected to each other by an electronic component such as a communication bus. or operably coupled with each other).
  • the type and/or number of hardware components included in the electronic device 101 are not limited to those shown in FIG. 1 .
  • electronic device 101 may include only some of the hardware components shown in FIG. 1 .
  • the processor 110 of the electronic device 101 may include hardware components for processing data based on one or more instructions.
  • Hardware components for processing data may include, for example, an Arithmetic and Logic Unit (ALU), a Field Programmable Gate Array (FPGA), and/or a Central Processing Unit (CPU).
  • ALU Arithmetic and Logic Unit
  • FPGA Field Programmable Gate Array
  • CPU Central Processing Unit
  • the number of processors 110 may be one or more.
  • the processor 110 may have the structure of a multi-core processor, such as a dual core, quad core, or hexa core.
  • the memory 120 of the electronic device 101 may include hardware components for storing data and/or instructions input and/or output to the processor 110.
  • the memory 120 may include, for example, volatile memory such as random-access memory (RAM) and/or non-volatile memory such as read-only memory (ROM).
  • Volatile memory may include, for example, at least one of Dynamic RAM (DRAM), Static RAM (SRAM), Cache RAM, and Pseudo SRAM (PSRAM).
  • Non-volatile memory may include, for example, at least one of PROM (Programmable ROM), EPROM (Erasable PROM), EEPROM (Electrically Erasable PROM), flash memory, hard disk, compact disk, and eMMC (Embedded Multi Media Card). You can.
  • one or more instructions indicating operations to be performed on data by the processor 110 may be stored.
  • a collection of instructions may be referred to as firmware, operating system, process, routine, sub-routine and/or application.
  • the electronic device 101 and/or the processor 110 of the electronic device 101 executes a set of a plurality of instructions distributed in the form of an application, as shown in FIGS. 3 to 8 At least one of the operations can be performed.
  • a set of parameters related to the neural network 125 may be stored.
  • the neural network 125 is a recognition model implemented in software or hardware that imitates the computational ability of a biological system using a large number of artificial neurons (or nodes).
  • the neural network 125 can perform human cognitive functions or learning processes through artificial neurons.
  • Parameters related to the neural network 125 may represent, for example, weights assigned to a plurality of nodes included in the neural network 125 and/or connections between the plurality of nodes.
  • the structure of the neural network 125 represented by a set of parameters stored in the memory 120 of the electronic device 101 according to an embodiment will be described later with reference to FIG. 2.
  • the number of neural networks 125 stored in the memory 120 is not limited to that shown in FIG. 1, and sets of parameters corresponding to each of a plurality of neural networks may be stored in the memory 120.
  • the communication circuit 140 of the electronic device 101 may include hardware components to support transmission and/or reception of electrical signals between the electronic device 101 and an external electronic device.
  • the communication circuit 140 may include, for example, at least one of a modem, an antenna, and an optical/electronic (O/E) converter.
  • the communication circuit 140 includes Ethernet, LAN (Local Area Network), WAN (Wide Area Network), WiFi (Wireless Fidelity), Bluetooth, BLE (Bluetooth Low Energy), ZigBee, LTE (Long Term Evolution), It can support transmission and/or reception of electrical signals based on various types of protocols, such as 5G NR (New Radio).
  • the electronic device 101 may extract an image containing a specified motion from an image using the neural network 125.
  • the electronic device 101 may identify at least one external object included in the extracted image from a video signal included in the image.
  • the electronic device 101 may identify the point in time at which the specified motion was captured based on identifying the external object.
  • the electronic device 101 may identify the sound of a ball coming into contact with at least one external object from the audio signal included in the extracted image.
  • the electronic device 101 may use the neural network 125 to adjust the time when the specified motion is captured based on the time when the sound is identified.
  • the captured viewpoint may refer to the viewpoint of the video containing the betting event included in the game video.
  • the time may be referred to as a batting time, a catching time, or a pitching time.
  • the designated motion may include at least one of a motion of throwing the ball or a motion of the ball contacting at least one external object.
  • the external object may include at least one of a glove, a bat, a home plate, or an apparatus.
  • the memory 120 of the electronic device 101 may include a plurality of neural networks.
  • the first neural network 151 may be an example of a neural network learned to identify at least one peak value within an audio signal included in an image. An operation in which the electronic device 101 identifies at least one peak value within the audio signal using the first neural network 151 will be described later with reference to FIG. 4 .
  • the second neural network 152 may be an example of a neural network learned to identify the location of a ball based on an external object within a video signal included in an image.
  • the electronic device 101 may establish a communication channel with an external electronic device and receive images.
  • the video received from the external electronic device may be a sports game video.
  • the external electronic device may be a relay camera or a server that integrates the images received from the relay cameras, processes them, and transmits them to the outside.
  • the image related to the location of the ball may be an image containing the ball.
  • images related to the location of the ball may be images of a ball thrown from a pitcher to a catcher and/or a ball falling toward an outfielder or infielder.
  • the images related to the location of the ball may be images captured of the ball placed on the teeing ground and/or field.
  • the third neural network 153 may be an example of a neural network learned to obtain images grouped and segmented according to shot units from game images. At least one of the divided images may be multimedia content corresponding to a batting image and/or a catching image.
  • the electronic device 101 may receive information about the point in time when a specified motion was captured and train the first neural network 151.
  • the electronic device 101 may learn the first neural network 151 through another neural network (eg, the second neural network 152) that is distinct from the first neural network 151.
  • the electronic device 101 identifies the point in time at which a specified motion is captured and connects the first neural network 151 to It can be learned.
  • the electronic device 101 may train the second neural network 152 using the time point corresponding to the peak value output through the first neural network 151.
  • the electronic device 101 may receive at least one image (eg, a sports game video) using the neural network 125.
  • the electronic device 101 may extract an image different from the received at least one image from the received at least one image based on the neural network 125.
  • the different images may include one of batting images, pitching images, catching images, advertising images, dugout images, field images, or images containing spectators, outfielders, and/or infielders.
  • the neural network 125 that the electronic device 101 acquires based on a set of parameters stored in the memory 120 according to an embodiment will be described.
  • FIG. 2 illustrates an example for explaining a neural network that an electronic device acquires from a set of parameters stored in a memory, according to an embodiment.
  • the neural network 125 of FIG. 2 may include a first neural network 151 to a third neural network 153.
  • the neural network 125 may include a plurality of layers.
  • the neural network 125 may include an input layer 210, one or more hidden layers 220, and an output layer 230.
  • the input layer 210 may receive a vector representing input data (eg, a vector with elements corresponding to the number of nodes included in the input layer 210). Signals generated by input data at each node in the input layer 210 may be transmitted from the input layer 210 to the hidden layers 220.
  • the output layer 230 may generate output data of the neural network 125 based on one or more signals received from the hidden layers 220.
  • the output data may include a vector having elements corresponding to the number of nodes included in the output layer 230.
  • one or more hidden layers 220 may be located between the input layer 210 and the output layer 230, and convert the input data transmitted through the input layer 210 into a value that is easy to predict. It can be converted.
  • the input layer 210, one or more hidden layers 220, and output layer 230 may include a plurality of nodes.
  • the one or more hidden layers 220 are not limited to the feedforward-based topology shown, for example, a convolutional filter or a fully connected layer in a convolutional neural network (CNN). It can be a connected layer) or various types of filters or layers grouped based on special functions or characteristics.
  • one or more hidden layers 220 may be a layer based on a recurrent neural network (RNN) whose output value is re-input to the hidden layer at the current time.
  • RNN recurrent neural network
  • the input layer 210, one or more hidden layers 220, and/or the output layer 230 may be some layers of a transformer model.
  • the neural network 125 may include numerous hidden layers 220 to form a deep neural network. Training a deep neural network is called deep learning.
  • nodes included in the hidden layers 220 are referred to as hidden nodes.
  • Nodes included in the input layer 210 and one or more hidden layers 220 may be connected to each other through connection lines having connection weights, and nodes included in the hidden layer and output layer may also be connected to each other through connection lines having connection weights.
  • Tuning and/or training the neural network 125 is performed on each of the layers included in the neural network 125 (e.g., the input layer 210, one or more hidden layers 220, and output layer 230). This may mean changing the connection weight between included nodes. Tuning of the neural network 125 may be performed based on, for example, supervised learning and/or unsupervised learning.
  • the electronic device may tune the neural network 125 based on reinforcement learning in unsupervised learning. For example, the electronic device may change policy information used by the neural network 125 to control the agent based on the interaction between the agent and the environment. Policy information is a rule by which an electronic device uses a neural network to determine the agent's actions in the environment. The electronic device trains the neural network based on the interaction between the agent and the environment to obtain policy information from the neural network. You can change it. For example, policy information may be modified to allow the agent to determine an optimal action and/or sequence of actions to achieve an obtainable reward and/or goal. The electronic device according to one embodiment may cause a change in the policy information by the neural network 125 in order to maximize the agent's goal and/or reward due to the interaction.
  • FIG. 3 illustrates an example to explain an operation in which an electronic device extracts an image in which a specified motion is captured from an image, according to an embodiment.
  • the operation of FIG. 3 is an operation performed by the electronic device 101 of FIG. 1 and/or the processor 110 of FIG. 1 using at least one neural network (e.g., the third neural network 153 of FIG. 1). It may be an example of.
  • An electronic device may receive an image 310 from at least one external electronic device.
  • the image 310 may be a real-time image received by the electronic device 101 by establishing a communication channel with an external electronic device.
  • the image 310 may be an image composed of a screen change.
  • the screen change may mean that the image is switched from a screen containing at least one object in a continuous image to another screen containing an object different from the object.
  • the batting image 333 may include a screen converted from the pitching image 331.
  • the batting image 333 may include a catching image.
  • the screen transition may include a fade out in which another screen is displayed while at least one screen disappears, an overlap in which at least one screen and another screen overlap in different directions, and/or a simple screen transition. It can be divided into:
  • the electronic device may use log information related to the image 310 to extract the image 330 in shot units from the image 310.
  • the electronic device may receive log information through at least one neural network or extract log information from an image provided from an external electronic device.
  • the log information may include at least one of a game progress time, a frame number of the video, progress information of the game, or screen information of the video.
  • the electronic device may divide the image 310 received from an external electronic device into frames.
  • the electronic device may divide the image 310 received from an external electronic device into shots.
  • the divided shot-unit image 330 may include a plurality of frames.
  • the shot unit may mean an image captured with one device (eg, a single cut scene of an image).
  • the image 310 may be formed by a combination of various images, such as an image captured by a camera located at the catcher's viewpoint, an image captured by a camera located at the pitcher's viewpoint, and an image captured by an outfield camera.
  • a shot unit may mean a section captured by a single camera among a combination of images captured by cameras.
  • the image 310 may include a first section including an image captured by a first camera and a second section including an image captured by a second camera by changing the screen.
  • a shot may mean an image of the first section or an image of the second section.
  • the electronic device may obtain multimedia content by classifying the image 330 or frames in shot units.
  • the multimedia content may be a set of similar images.
  • a pitching video 331, a close-up video 332, and/or a batting video 333 may be included in the multimedia content.
  • the multimedia content may include advertising video, field video, and/or spectator video.
  • the electronic device may identify an image of a ball moving among images including a pitcher, batter, and/or catcher among the shot-unit images 330.
  • the electronic device may identify an image of a ball moving among images including outfielders and/or spectators among the shot-unit images 330.
  • the electronic device may extract frames in which the ball is captured from among the frames. The extracted frames may be included in a batting video, a pitching video, a catching video, a home run video, and/or a catch video.
  • the processor of the electronic device uses log information related to the image 310 to determine the time points indicated by the log information (e.g., the movement of the ball). If there is a viewpoint at which the pitching image 331 is not identified among the identified viewpoints, multimedia content corresponding to the viewpoint at which the pitching image 331 is not identified can be extracted from the video 310.
  • the processor may identify, among the time points in the log information, a time point that does not match the pitch image 331 or a frame, the image or frame generated before and/or after the identified time point, and the pitch tracking.
  • the pitching image 331 may be further extracted from the image 310 using the timestamp difference included in the log information of the device.
  • the pitching image 331 and/or the batting image 333 may be images in which at least one designated motion is captured.
  • the designated motion may include at least one of a motion of throwing the ball or a motion of the ball contacting a glove and/or a bat.
  • the operation of acquiring at least one piece of information from the pitch tracking device will be described later with reference to FIG. 7 .
  • the electronic device extracts a shot-unit image 330 from the image 310 and obtains an image different from the pitching image 331, the close-up image 332, and/or the batting image 333. You can.
  • the different video may include one of advertising video, dugout video, or video containing spectators, outfielders, and/or infielders.
  • the electronic device may receive images from a server and/or an external electronic device, and group images in shot units from the images received at all times.
  • the electronic device can extract an image in which a specified motion is captured from images in grouped shot units.
  • the electronic device may transmit a video signal and/or an audio signal included in the captured image to at least one neural network. An operation in which an electronic device identifies a peak value included in an audio signal using at least one neural network will be described later with reference to FIG. 4 .
  • FIG. 4 illustrates an example of an operation in which an electronic device identifies the peak value of the probability that a sound related to a specified motion is recorded based on an audio signal included in an image, according to an embodiment.
  • the operation of identifying the peak value may be performed by the electronic device 101 of FIG. 1 and/or the processor 110 of FIG. 1.
  • the electronic device may extract an audio signal 410 from at least one image among the shot-unit images 330 of FIG. 3 .
  • the audio signal 410 may be received by the electronic device in wav format.
  • the electronic device may receive the audio signal 410 and identify changes in amplitude within the time domain.
  • the audio signal 410 included in the video e.g., the betting video 333 in FIG. 3
  • the audio signal 410 may include the sound of a ball contacting at least one external object, including a glove or a bat, a game commentary voice, and/or the sound of an audience member.
  • the electronic device may obtain feature information 430 from the audio signal 410.
  • the feature information 430 may include at least one of the frequency or amplitude included in the audio signal 410 in the time domain.
  • a graph showing feature information 430 as a spectrogram combining a waveform and a spectrum is shown.
  • a waveform may mean a change in amplitude based on a change in time.
  • Spectrum may refer to a change in amplitude based on a change in frequency.
  • Feature information 430 may include changes in amplitude based on changes in time and/or frequency.
  • the electronic device uses the first neural network 151 to generate a sound generated by a specified motion in the time domain based on the characteristic information 430 obtained from the audio signal 410.
  • Information 450 including the distribution of captured probabilities may be obtained. Referring to FIG. 4, a graph showing information 450 along the time domain is shown.
  • the probability distribution included in information 450 may include probabilities that a sound generated by a specified motion can be identified, corresponding to discrete times within the time domain.
  • the probability distribution may represent the identifiable probabilities within a time domain as a score value between 0 and 1.
  • the electronic device can obtain a score value based on the probability distribution.
  • the electronic device can identify at least one peak based on the score value.
  • the processor of the electronic device may transmit characteristic information 430 to the first neural network 151.
  • the first neural network 151 may be included in the neural network 125 of FIG. 2.
  • the first neural network 151 may include a convolutional neural network (CNN) and/or a recurrent neural network (RNN) structure.
  • the first neural network 151 may include at least one of the input layer 210 of FIG. 2, the hidden layers 220 of FIG. 2, or the output layer 230 of FIG. 2.
  • the electronic device can verify the point in time at which the sound generated by the specified motion is identified. The time point may be matched to the peak value 470.
  • the electronic device may use the first neural network 151 to identify a peak value 470 that exceeds a specified value.
  • the specified value is a threshold value (e.g., in FIG. 4 )(455).
  • the electronic device can set a threshold value 455. For example, when the threshold value 455 is set to 0.5, the electronic device can identify values exceeding 0.5, based on the distribution of probability included in the information 450, through the first neural network 151. You can.
  • the electronic device may identify the largest value among the identified values as the peak value 470.
  • the peak value 470 may be matched to the point in time when the sound generated by the specified motion is captured.
  • the peak value 470 may correspond to the sound of a batted ball included in an image (eg, the batting image 333 of FIG. 3).
  • the electronic device may obtain the time point at which the specified motion was captured based on the time point at which the peak value 470 is identified.
  • the electronic device can train a neural network to obtain the captured viewpoint.
  • the electronic device may use a pre-trained neural network (eg, the first neural network 151) to obtain the captured viewpoint.
  • the electronic device may identify the time when the peak value 470 is identified as the betting time (or the catching time).
  • the betting time may include a designated time.
  • the designated time may be a time region from the first time point 451 to the second time point 452.
  • the first time point 451 and/or the second time point 452 may mean a time point matching the threshold value 455 in the probability distribution included in the information 450. You can. The operation of the electronic device to obtain the designated time will be described later with reference to FIG. 5.
  • the electronic device generates noise 415 and 435 based on the distribution of probabilities included in the information 450 in the time domain, a sound that is different from the sound generated by a specified motion in the time domain. It can be identified as: As an example, noise 415 and 435 may be matched to 0 in the probability distribution included in information 450.
  • the noises 415 and 435 may be an example of a sound excluding the sound of a ball contacting at least one external object within an audio signal included in an image. The sound of the ball coming into contact with at least one external object may be referred to as a hitting sound, hitting sound, and/or batting sound. Sounds excluding the sound of the ball contacting at least one external object may be examples of audience sounds and/or game commentary voices included in the video.
  • the electronic device may identify feature information including a designated frequency and obtain a fine play point.
  • the starting time may be different from at least one of the pitching time and the betting time.
  • the electronic device selects a pitch image matching the pitch timing from an image (e.g., image 310 of FIG. 3) and a pitch image including the pitch timing (e.g., pitch image 331 of FIG. 3). It can be identified based on the screen transition that occurs later.
  • the electronic device can identify the sounds of the audience included in the audio signal using the first neural network 151.
  • the electronic device may learn a neural network (eg, the first neural network 151) based on the frequency and/or amplitude corresponding to the sounds of the audience.
  • the electronic device may use the learned neural network to obtain a viewpoint corresponding to the sound of the audience, based on the lake rain image.
  • the obtained time point may be referred to as the lake rain time point.
  • the electronic device can obtain at least one hitting sound through an audio signal included in the image.
  • the electronic device can use the obtained hitting sound to identify the point in time when the hitting sound included in the video was recorded.
  • Figure 5 the operation for obtaining the viewpoint is described.
  • FIG. 5 illustrates an example of an electronic device obtaining a time point corresponding to a peak value within an audio signal, according to an embodiment.
  • the electronic device of FIG. 5 may correspond to the electronic device 101 of FIG. 1 .
  • the electronic device may use at least one neural network (eg, the first neural network 151 in FIG. 1) to obtain a point in time corresponding to a peak value within the audio signal.
  • at least one neural network eg, the first neural network 151 in FIG. 1
  • An electronic device extracts feature information from an audio signal included in at least one of the images (e.g., the betting image 333 of FIG. 3) extracted from the image (e.g., the image 310 of FIG. 3). can do.
  • the electronic device may obtain a probability distribution (eg, a probability distribution included in the information 500) using the characteristic information.
  • Information 500 may be referenced to information 450 of FIG. 4 .
  • the electronic device may identify a peak containing values exceeding the threshold value 455 based on the probability distribution included in the information 500.
  • the electronic device can identify the peak value 470, which is the largest value among the identified peaks. Although not shown, the electronic device can identify multiple peaks.
  • the peak value (470) is the batted ball sound included in the audio signal, the hitting sound, the sound generated by the ball contacting the glove, the sound generated by the ball contacting the ground, the sound generated by the ball contacting the bat, and/or the sound generated by the ball contacting the bat. It may be matched to a sound generated by interaction with at least one included external object.
  • the peak value 470 may be a value obtained by an electronic device using a neural network learned to identify a specified frequency and/or wavelength included in an audio signal.
  • the electronic device may extract the point in time when the specified motion was captured.
  • the viewpoint may include corresponding viewpoints from the first viewpoint 451 to the second viewpoint 452.
  • the first time point 451 may mean the first value among values that match the threshold value 455 in the probability distribution included in the information 500.
  • the slope of the probability distribution matching at the first time point 451 may be a positive number.
  • the second time point 452 may mean the last value among values that match the threshold value 455 in the probability distribution included in the information 500.
  • the slope of the probability distribution matching at the second time point 452 may be negative.
  • the peak value 470 may mean a value that matches a middle point among the discrete points in time between the first point in time 451 and the second point in time 452 in the probability distribution.
  • the electronic device may identify a value with a positive slope among the values that match the threshold value 455 as the first time point 451. Based on the probability distribution, the electronic device may identify a value with a negative slope among the values matching the threshold value 455 as the second time point 452.
  • An electronic device is based on a neural network (e.g., the first neural network 151 in FIG. 1), and uses Equation 1 to be described later, at a first viewpoint 451 and/or a second viewpoint ( 452) can be obtained.
  • the graph 510 may refer to a portion of the probability distribution that matches the first time point 451 and/or the second time point 452 in the information 500.
  • silver ' ' May refer to a viewpoint corresponding to the first viewpoint 451 and/or the second viewpoint 452 distinguished by the operation.
  • the sign e.g., in Equation 1)
  • the sign is '-', may mean the first viewpoint 451.
  • the sign is '+', may mean the second viewpoint 452. or may mean one of the discrete times within the time domain.
  • silver It can mean time before the corresponding time. or may mean one value among probability distribution values (e.g., score value in FIG. 5) in the time domain.
  • probability distribution values e.g., score value in FIG. 5
  • the probability distribution included in the information 500 and/or It may mean the score value corresponding to . may mean the threshold value 455.
  • the electronic device may obtain the first viewpoint 451 and the second viewpoint 452 included in the betting image 333 using Equation 1 described above.
  • the electronic device may obtain the time point at which the specified motion was captured based on Equation 2 using at least one of the obtained first time point 451 and the second time point 451.
  • Equation 2 may mean a point in time corresponding to a sound generated when the ball comes into contact with at least one external object. and/or may mean a specified value.
  • Electronic devices and/or processors and/or can be set. may be referenced at the second time point 452. may be referenced at the first time point 451.
  • the electronic device can obtain the point in time when the specified motion was captured using Equation 2.
  • the electronic device may identify the peak value 470 having the largest value among a plurality of values that exceed the threshold.
  • the electronic device may use at least one neural network to identify a designated time, including a time corresponding to the peak value 470, as a betting time and/or a catching time.
  • the designated time may mean a time region corresponding from the first time point 451 to the second time point 452.
  • the electronic device may extract an image or frame corresponding to the time domain from a betting image (e.g., the betting image 333 in FIG. 3) or a plurality of frames containing a betting event.
  • the electronic device may identify the sound corresponding to the peak value 470 as a hitting sound.
  • the hitting sound is the sound made when the pitched ball comes into contact with the glove, the sound made when the batter bats, the sound made when the catcher misses the ball and makes contact with the ground, or the sound made when the catcher misses the ball and the image behind home plate. It may include at least one sound among sounds generated by contact with an appliance.
  • the electronic device may use the identified hitting sound to identify an image and/or frame corresponding to the time when the hitting sound was generated and/or recorded.
  • the identified video and/or frame may be included in a betting video (eg, betting video 333 in FIG. 3).
  • the first viewpoint 451 may be a viewpoint corresponding to an image (or screen) before the designated frame than the viewpoint corresponding to the peak value 470.
  • the second viewpoint 452 may be a viewpoint corresponding to an image after a designated frame than the viewpoint corresponding to the peak value 470.
  • the electronic device uses Equation 1 and/or Equation 2, depending on whether the peak value is identified, to place a bet.
  • a point of view and/or a catch point can be obtained.
  • the electronic device may obtain a plurality of betting points and/or a plurality of catching points.
  • the electronic device may combine the acquired betting images corresponding to the plurality of betting times and provide the results to the user.
  • the electronic device may combine the acquired muzzle images based on the plurality of muzzle viewpoints and provide the images to the user.
  • FIGS. 6A to 6C described later an operation in which an electronic device acquires a time point corresponding to a peak based on the number of identified peaks is explained.
  • FIGS. 6A to 6C illustrate an example for explaining an operation by an electronic device to identify a time point corresponding to a peak value using the number of peak values included in an audio signal, according to an embodiment.
  • the operation of identifying a plurality of peaks included in FIGS. 6A to 6C may be performed by the electronic device 101 of FIG. 1 and/or the processor 110 of FIG. 1.
  • Information 610, information 630, and/or information 650 may correspond to information 500 in FIG. 5. Peaks 615, 635, 653, and 655 may each correspond to different time points.
  • the screens 690-1, 690-2, 690-3, and 690-4 may correspond to at least one frame included in the betting video 333 of FIG. 3.
  • betting images including screens 690-1, 690-2, 690-3, and 690-4 may each be different.
  • a graph is shown showing the distribution of probabilities, within information 610, including at least one peak 615 with a value less than a threshold 455.
  • the probability distribution included in the information 610 may include probabilities that a sound generated by a specified motion can be identified within the time domain.
  • the electronic device may identify at least one peak 615.
  • the electronic device receives an audio signal using Equation 1 of FIG. 5 and/or Equation 2 of FIG. 5 based on at least one neural network (the first neural network 151 of FIG. 1), Peak 615 can be identified.
  • the maximum value of the probability distribution value included in the peak 615 (e.g., score in FIG. 6A) may be less than the threshold value 455.
  • the electronic device can obtain a time point corresponding to the maximum value of the peak 615.
  • the acquired time point may be matched to the time point at which the batted ball sound was recorded.
  • the electronic device may extract a frame corresponding to the acquired viewpoint from at least one image (eg, the betting image 333 in FIG. 3).
  • the frame may be referenced on screen 690-1.
  • the screen 690-1 is a screen corresponding to an audio signal including a sound generated when a ball contacts at least one external object among a plurality of frames included in the at least one image received by the electronic device. Yes it could be.
  • Screen 690-1 may be an example of a screen after a pitched ball touches the bat.
  • screen 690-1 may be a screen that matches an ending frame (eg, a frame matching the second viewpoint 452 of FIG. 4).
  • the electronic device may acquire an image including the screen 690-1 based on the viewpoint corresponding to the maximum value of the peak 615.
  • a graph is shown showing a distribution of probabilities containing at least one peak with a value greater than or equal to a threshold value 455.
  • the electronic device may receive an audio signal using at least one neural network and identify one peak 635 whose value exceeds the threshold 455. For example, the electronic device may obtain a betting point from the identified peak 635 using Equation 1 and/or Equation 2 of FIG. 5 . As an example, the electronic device can identify the betting time using the peak 635 from the received image. For example, the electronic device selects an image corresponding to the betting time from at least one image (e.g., the betting image 333 of FIG.
  • Frames can be identified. At least one of the identified frames may be referenced on screen 690-2. Screen 690-2 may be a portion of a video signal in which the sound produced by a ball pitched by a pitcher coming in contact with at least one external object is matched to a recorded audio signal.
  • the electronic device uses Equation 1 and/or Equation 2 of FIG. 5 to select a start frame (e.g., a frame matching the first viewpoint 451 of FIG. 4 ) among a plurality of frames included in the received image. ) and/or a termination frame (e.g., a frame matching the second viewpoint 452 of FIG. 4) may be obtained.
  • the electronic device may obtain an image composed of a plurality of frames from the start frame to the end frame from the received image.
  • the image composed of the plurality of frames may be an example of an image segmented from a betting image.
  • the electronic device may receive an audio signal using at least one neural network and identify a plurality of peaks 653 and 655 included in the audio signal.
  • a plurality of peaks 653 and 655 may be matched to at least one of a batted ball sound or noise (e.g., the noises 415 and 435 of FIG. 4.
  • the peak 653 matches a batted ball sound. It may be matched with characteristic information about a sound that includes the same amplitude and/or frequency as the peak 655.
  • the point in time when matching the peak 653 is an image (e.g., the betting image 333 in FIG. 3).
  • the screen matching the peak 653 is, like the screen 690-4, where the electronic device uses at least one neural network (e.g., the second in FIG. 1). It may be a screen that identifies a ball using the neural network 152.
  • the electronic device uses at least one neural network (e.g., the second neural network in FIG. 1). 152)), one peak can be selected using the video signal included in the pitch image (e.g., the pitch image 331 in Figure 3).
  • the selected peak may be a peak that matches the pitch time.
  • the time point matching the selected peak may correspond to the pitch time point acquired by the electronic device using the video signal.
  • the electronic device uses the video signal to determine the time point of the pitch included in the video signal. Based on the identification of , the pitching time can be obtained.
  • the electronic device may identify the peak 655 that matches the betting time obtained from the video signal based on at least one neural network. there is.
  • the electronic device can obtain the betting time based on the time corresponding to the matched peak 655.
  • the electronic device may identify at least one of the ball's trajectory, strike zone, pitcher's position, catcher's position, or home plate to obtain the pitching point from the video signal. Based on the identification, the electronic device can obtain the betting time included in the video signal.
  • the operation of the electronic device selecting one of the plurality of peaks based on the identification will be described later with reference to FIG. 8. For example, the frame including the betting time may be referenced on screen 690-3.
  • the electronic device uses the viewpoint included in the peak 655 (e.g., the first viewpoint 451 of FIG. 4 and the second viewpoint 452 of FIG. 4) to display a betting image (e.g., the betting image of FIG. 3).
  • the image 333 can be segmented.
  • the electronic device uses Equation 1 of FIG. 5 from the peak 655 to determine the start point of the image (e.g., the first time point 451 of FIG. 4) and the end point of the image (e.g., FIG.
  • the second time point (452) of 4 can be extracted.
  • the electronic device may obtain the betting time using Equation 2 in FIG. 5 based on the acquired time.
  • the electronic device may crop the image using the start point of the image and/or the end point of the image.
  • the cropped image may include at least one of a batting point of view and/or a catching point of view.
  • the starting point of the video may be matched to a screen that includes at least one of the following: a situation in which a pitcher prepares to throw a ball, or a situation in which a pitcher and a catcher exchange signatures. there is.
  • the ending point of the video may be matched to a screen containing a situation after the ball pitched by the pitcher contacts at least one external object.
  • the situation after the contact is a situation in which the batter rushes, a situation in which the batter throws the bat, a situation in which the catcher picks up a ball that has fallen on the ground, a situation in which the catcher throws the ball, or a situation in which the catcher heads toward an apparatus placed behind the home plate ( toword) can include at least one of the rushing situations.
  • the electronic device may perform an operation to obtain a betting point based on the number of peaks identified from the audio signal included in the image.
  • the electronic device can use the video signal included in the image to obtain the betting point from the audio signal.
  • the electronic device can segment the image based on the betting time obtained from the audio signal.
  • the electronic device can provide the user with the segmented image that matches the exact betting time.
  • FIG. 7 an operation in which an electronic device identifies at least one of a plurality of objects included in an image and tracks a pitched ball will be described.
  • FIG. 7 illustrates an example in which an electronic device extracts objects through a neural network and tracks the location of a ball through the extracted objects, according to an embodiment.
  • the neural network of FIG. 7 may include the second neural network 152 of FIG. 1 .
  • the screens 710 and 720 may be included in the pitching image 331 and/or the batting image 333 of FIG. 3 .
  • an electronic device e.g., the electronic device 101 of FIG. 1
  • a pitch image using a neural network e.g., the second neural network 152 of FIG. 1.
  • an area e.g, Ball-Zone
  • the electronic device can visualize the identified area using the neural network.
  • an electronic device may receive information from a pitch tracking device through a neural network.
  • the pitch tracking device may be an example of a device that acquires data related to the trajectory of a ball.
  • the pitch tracking device may be a pitch tracking system (PTS), and/or may be a device that constitutes a pitch tracking system.
  • the pitch tracking device can provide information generated by tracking the movement of a baseball within a stadium.
  • the electronic device acquires data related to the location of the ball by establishing a communication channel with the pitch tracking device through a communication circuit (e.g., communication circuit 140 of FIG. 1). You can.
  • the electronic device may identify an external object on the screen 710 including the pitch image using a neural network, and obtain a screen 720 on which the identified external object is displayed.
  • a neural network can identify external objects included in the Ball-Zone represented by home plate, the batter, and/or the catcher.
  • the neural network may output information representing a screen 720 where the identified external object is displayed by a bounding box, dot, and/or line.
  • the neural network may omit the extraction operation of the screen including the ball-zone (e.g., screen 720). You can.
  • the electronic device may identify a visual object related to the pitch within the extracted screen 710 using a neural network.
  • a neural network can identify the ball, catcher, batter, and/or home plate.
  • the neural network may identify the pitch location 721, glove 722, and/or home plate 723 based on the identified external objects.
  • the electronic device may use a neural network to generate a strike zone 725 including a virtual plane based on the home plate 723 and the physical conditions of the batter.
  • the neural network can form the strike zone 725 by using the home plate 723 as the width of the strike zone 725 and the height of the strike zone 725 from the batter's knees to the waist.
  • the electronic device overlaps an image or animation showing the trajectory of the ball 724 on a video, image, or screen including the identified pitching position 721, glove 722, and home plate 723. You can do it.
  • An electronic device may include a ball movement trajectory, At least one of a pitching position, a catcher's required position, and/or a catching position may be obtained.
  • the electronic device can identify the location of the ball captured in each of the plurality of frames included in the pitching image.
  • the electronic device may identify at least one of a pitching location, a catcher's request location, a catching location, or a batting location, based on the identified location of the ball.
  • the electronic device can use a neural network to identify the location of the ball at designated points in time. For example, the electronic device can identify the home plate and batter included in the pitch image and identify the strike zone.
  • the electronic device may identify the position of the ball passing through the plane including the strike zone as the pitching position.
  • the electronic device may identify an external object, including a catcher's glove and/or a batter's bat, and identify a point in time when the ball interacts with the external object.
  • the interaction point may be an example of a point in time when the ball and the external object come into contact.
  • the time point may be an example of a pitch time point, a batting time point, a catching time point included in a pitching image or a batting image, or a time point matching the peak value 470 of FIG. 4 .
  • the electronic device may identify the position of the ball interacting with the external object as a catching position or a batting position.
  • the electronic device may obtain the trajectory 724 of the ball by connecting the positions of the identified ball in a plurality of frames included in the pitch image using a neural network. If the ball is covered by the bat (e.g., a missed swing), or the ball overlaps with an external object that has a color similar to the color of the ball, the trajectory of the ball 724 obtained using a neural network is the ball captured by the frames. The movement may not be completely represented.
  • the operation of the electronic device selecting at least one peak among the plurality of peaks 653 and 655 in FIG. 6C based on the point in time at which the ball is identified will be described later in FIG. 8 .
  • the electronic device may extend the trajectory 724 to the frame of the batting point and/or the catching point when the trajectory 724 is terminated in a frame past the batting point and/or the catching point. You can.
  • the electronic device may extend trajectory 724 between frames based on the speed of movement of the ball represented by trajectory 724 to produce a specified sound (e.g., a sound produced by a collision between a bat and a ball).
  • the position of the ball in the frame at the time when the sound (at least one of a sound generated by a collision between a glove ball, a hitting sound, or a hitting sound) is recorded can be identified.
  • the specified sound may be matched to peak value 470 in FIG. 4.
  • the electronic device's extension of the trajectory 724 is not limited to the above example and may be performed based on, for example, pitch tracking system (PTS) information.
  • the PTS information may be included in log information.
  • Figure 8 is an example for explaining an operation in which an electronic device selects one peak among a plurality of peaks included in an audio signal using the trajectory of a ball identified based on a video signal, according to an embodiment. It shows.
  • the electronic device in FIG. 8 may be referenced to the electronic device 101 in FIG. 1 .
  • Information 650 may correspond to information 650 in FIG. 6C.
  • the plurality of peaks 653 and 655 may correspond to the plurality of peaks 653 and 655 in FIG. 6C.
  • the electronic device uses a neural network (e.g., the first neural network 151 in FIG. 1) to obtain a probability distribution from the audio signal included in the betting image (e.g., the betting image 333 in FIG. 3). You can.
  • a neural network e.g., the first neural network 151 in FIG. 1
  • the electronic device uses a neural network different from the neural network to acquire the trajectory of the ball (e.g., trajectory 724 in FIG. 7) from the video signal included in the pitch image (e.g., pitch image 331 in FIG. 3).
  • a neural network different from the neural network to acquire the trajectory of the ball (e.g., trajectory 724 in FIG. 7) from the video signal included in the pitch image (e.g., pitch image 331 in FIG. 3).
  • the second neural network 152 in FIG. 1 can be used.
  • FIG. 8 a graph is shown showing the distribution of the probability of identifying a ball included in information 810 according to the time domain.
  • An electronic device may display a plurality of external objects captured in a plurality of frames included in a pitching image (e.g., the pitching position 721 of FIG. 7, the glove 722 of FIG. 7, and the home plate of FIG. 7 ( Based on identifying at least one of 723) and/or the strike zone 725 of FIG. 7, the trajectory of the ball may be obtained.
  • the electronic device may use at least one neural network to obtain a distribution of the probability that the ball is identified within the time domain using the trajectory of the ball. For example, the electronic device may obtain 1 (eg, a score value) in the first section 830 in which a ball is identified in the probability distribution. The electronic device may obtain 0 in the second section 850 in which a ball is not identified in the probability distribution.
  • the electronic device fails to identify the ball, at least one of the following cases occurs: when the ball is obscured by a bat, when the ball overlaps with an external object having a color similar to that of the ball, or when the ball contacts an external object and is thrown. It may include at least one case of disappearing from the video.
  • Information 650 and information 810 may include the same time domain.
  • the time point matching the peak 653 may be included in the time domain corresponding to the first section 830.
  • the time domain may include multiple time points.
  • the time point matching the peak 655 may be included in the time domain corresponding to the second section 850.
  • the electronic device identifies the ball in the first section 830 using a neural network (e.g., the second neural network 152 of FIG. 1), a neural network different from the neural network (e.g., the first neural network 152 of FIG. 1) Using the neural network 151), the peak 653 included in the audio signal can be identified.
  • the electronic device can identify that the identified peak 653 is not a sound generated when the ball comes into contact with an external object.
  • the peak 653 may mean characteristic information of a sound including a frequency and/or amplitude similar to a sound generated when a ball contacts an external object.
  • the electronic device While the electronic device according to one embodiment cannot identify the ball using a neural network within the time domain corresponding to the second section 850, it includes the ball in the audio signal using a neural network different from the neural network.
  • peak 655 can be identified.
  • the electronic device can identify the peak 655 as a sound that matches the sound of the batted ball.
  • the electronic device uses Equation 1 of FIG. 5 and/or Equation 2 of FIG. 5 to determine time points that match the peak 655 (e.g., the first time point 451 in FIG. 4 and the second time point in FIG. 4 Based on the viewpoint 452), at least one of a pitching image, a batting image, a catching image, or a video signal included in the images may be divided.
  • the segmented images or the segmented video signal may be either an image corresponding to a time domain corresponding to the viewpoints or a set of frames corresponding to the viewpoints.
  • FIG. 9 is a flowchart illustrating an operation by an electronic device to detect a point in time at which a specified motion is captured, according to an embodiment. The operation of FIG. 9 may be performed by the electronic device 101 of FIG. 1 and/or the processor 110 of FIG. 1.
  • a processor may receive a request to detect a point in time when a specified motion is captured from multimedia content.
  • Multimedia content may include the shot-unit image 330 of FIG. 3.
  • the designated motion may include at least one of a motion in which a pitcher throws a ball or a motion in which the ball contacts a glove and/or a bat.
  • the time at which the specified motion is captured may include the pitching time, the catching time, and/or the betting time included in the pitching video.
  • a request to detect may refer to input by the user of the electronic device.
  • the processor may obtain a distribution of the probability that a specified motion is performed in the time domain based on an audio signal in multimedia content.
  • the audio signal may correspond to the audio signal 410 of FIG. 4.
  • the probability distribution may be included in information 450 of FIG. 4.
  • the processor may acquire the audio signal as a probability distribution in the time domain based on at least one neural network (eg, the first neural network 151 in FIG. 1).
  • the distribution of the probability may mean a set of probabilities for identifying a sound generated by a specified motion that matches each time point included in the time domain.
  • the processor uses a video signal synchronized to the audio signal within the multimedia content based on identifying a plurality of peak values within the obtained distribution.
  • the plurality of peak values may mean values corresponding to the plurality of peaks 653 and 655 in FIG. 6C.
  • the value corresponding to the plurality of peaks may mean the maximum value among the values of the plurality of peaks.
  • the video signal may include information in which the trajectory of the ball (e.g., trajectory 724 of FIG. 7) is identified by the processor based on at least one neural network (e.g., second neural network 152 of FIG.
  • a video signal synchronized to an audio signal may mean a time domain included in information 810 that matches the same time domain included in information 650.
  • the processor may identify the peak 655 of FIG. 8, which occurred during the time corresponding to the second section 850 of FIG. 8, as information corresponding to the sound of the batted ball.
  • the processor uses Equation 1 of FIG. 5 and/or Equation 2 of FIG. 5 based on a neural network different from the at least one neural network (e.g., the first neural network 151 of FIG. 1), You can obtain the point in time that matches the sound of the batted ball.
  • the hitting sound may include a hitting sound, a sound generated when the ball interacts with an external object including at least one of a glove, a bat, a home plate, or an apparatus.
  • the processor uses Equation 1 of FIG. 5 and/or Equation 2 of FIG. 5 to generate an image (e.g., pitch image 331 of FIG. 3, or FIG. 3) based on the acquired viewpoint.
  • the betting video 333 can be divided.
  • FIG. 10 is a flowchart illustrating an operation of an electronic device based on the number of peaks, according to an embodiment. The operation of FIG. 10 may be performed by the electronic device 101 of FIG. 1 and/or the processor 110 of FIG. 1.
  • a processor may receive a request to detect a point in time when a specified motion is captured from multimedia content.
  • the processor may perform operation 1010 similarly to operation 910 of FIG. 9 .
  • the processor based on receipt of the request, identifies the point in time at which the sound caused by the specified motion was captured within the audio signal in the multimedia content.
  • the audio signal may include the audio signal 410 of FIG. 4 and/or the feature information 430 of FIG. 4.
  • the processor uses at least one neural network (e.g., the first neural network 151 of FIG. 1) to calculate a probability distribution (e.g., the probability included in the information 450 of FIG. 4) based on the audio signal. distribution) can be obtained.
  • the designated motion may include at least one of a motion of throwing a ball or a motion of the ball interacting with at least one external object.
  • the sound caused by the specified motion may be an example of a sound generated by the ball contacting at least one external object.
  • the captured time point may be a time point corresponding to the peak value 470 in FIG. 4.
  • the processor may check whether a point in time exceeding a threshold value is identified within the audio signal.
  • the threshold value may be referenced to threshold value 455 in FIG. 4.
  • the time point above the threshold may correspond to the peak value 470 in FIG. 4.
  • the processor responds to identifying a time point below the threshold value, Information indicating that the identified time point is the time point at which the specified motion was captured may be output.
  • the identified time point may be matched to peak 615 in FIG. 6A.
  • Information indicating the time at which the specified motion was captured may mean the betting time corresponding to the peak.
  • the processor can obtain the betting point using Equation 1 of FIG. 5 and/or Equation 2 of FIG. 5 based on at least one neural network (e.g., the first neural network 151 of FIG. 1). there is.
  • the processor determines whether to identify a plurality of time points greater than the threshold value. You can. For example, the processor may identify whether to use the video signal based on the number of time points above a threshold.
  • the processor in response to identifying the time points above the threshold, selects different time points including the time points. Based on the video signal within the time intervals, one of the time points may be selected as the time point at which the specified motion was captured.
  • the video signal may include information 810 of FIG. 8. These time points may be referenced to peaks 653 and 655 in FIG. 6C.
  • the different time sections may correspond to the first section 830 and/or the second section 850 of FIG. 8 .
  • the processor in response to identifying a time point above one threshold, selects the time points. It can be identified by the point in time when the specified motion was captured. For example, the time point above the one threshold may be matched to peak 635 in FIG. 6B.
  • FIG. 11 is a flowchart illustrating an operation by an electronic device to extract an image in which a specified motion is captured from an image using a neural network, according to an embodiment.
  • the operation of FIG. 11 may be performed by the electronic device 101 of FIG. 1 and/or the processor 110 of FIG. 1.
  • the processor may group and segment an image according to shot units using a first neural network among a plurality of neural networks.
  • the first neural network may be referenced to the third neural network 153 in FIG. 1.
  • the image may be matched to image 310 of FIG. 3.
  • the image grouped and divided according to the shot unit may be matched to the shot unit image 330 of FIG. 3.
  • the processor may divide the video into a grouping of a pitch video, an advertisement video, a fine play video, an advertisement video, a spectator video, and/or a dugout video.
  • the processor may identify one or more multimedia contents corresponding to a pitching image among the divided groups.
  • One or more multimedia contents corresponding to the pitching image may include at least one of the pitching image 331 of FIG. 3 or the batting image 333 of FIG. 3.
  • the processor may extract batting video, pitching video, advertising video, dugout video, and/or spectator video from the video based on a neural network.
  • the processor uses a second neural network to obtain a probability distribution containing a plurality of peaks based on the audio signal included in the multimedia content.
  • the second neural network may be referenced to the first neural network 151 of FIG. 1.
  • the audio signal may include the audio signal 410 of FIG. 4 and/or the feature information 430 of FIG. 4.
  • the probability distribution including the plurality of peaks may be included in the information 450 of FIG. 4, the information 610 of FIG. 6A, the information 630 of FIG. 6B, and/or the information 650 of FIG. 6C. .
  • the plurality of peaks may include peak value 470 in FIG. 4 .
  • the plurality of peaks may be matched to the plurality of peaks 653 and 655 in FIG. 6C.
  • the processor uses a third neural network to determine when at least one of the ball trajectory, glove, home plate, and strike zone included in the multimedia content is identified. can be obtained.
  • the third neural network may be referenced to the second neural network 152 in FIG. 1.
  • the ball's trajectory may be referenced to trajectory 724 in FIG. 7 .
  • the glove may match glove 722 in FIG. 7 .
  • Home plate may be referenced to home plate 723 in FIG. 7 .
  • the strike zone may be referenced to strike zone 725 in FIG. 7 .
  • the time at which the at least one is identified may be included in the first section 830 of FIG. 8.
  • the processor may select a peak that matches a different time point from the identified time point among the time points corresponding to the plurality of peaks.
  • a time point different from the identified time point may be included in the second section 850 of FIG. 8 . Peaks matching the different time points may be referred to as peak 655 in FIG. 8.
  • the processor may acquire content different from the multimedia content that matches the viewpoint corresponding to the selected peak.
  • the processor uses Equation 1 of FIG. 5 and/or Equation 2 of FIG. 5 based on at least one neural network (e.g., the first neural network 151 of FIG. 1) to generate a peak corresponding to the selected peak.
  • Point of view can be obtained.
  • the corresponding time point may refer to a time region matching from the first time point 451 in FIG. 4 to the second time point 452 in FIG. 4 .
  • the different content may include at least one of a pitching video, a catching video, or a batting video.
  • the processor of the electronic device may group images into shot-unit images based on a neural network.
  • the processor may receive some of the grouped shot-unit images and obtain pitch image information using a video signal included in the images based on another neural network.
  • the processor may adjust the acquired pitch image information based on another neural network using an audio signal included in the image.
  • the processor may provide the adjusted pitch image information to the user.
  • An electronic device may include a memory for storing instructions, and at least one processor operably coupled to the memory.
  • the at least one processor may receive a request to detect a point in time when a specified motion is captured from multimedia content.
  • the at least one processor may obtain a distribution of the probability that the specified motion has been performed in a time domain based on the audio signal in the multimedia content.
  • the at least one processor based on identifying a plurality of peak values within the obtained distribution, uses a video signal synchronized to the audio signal within the multimedia content to Among a plurality of viewpoints, one viewpoint at which the specified motion is captured can be obtained.
  • At least one peak value among the plurality of peak values may match the largest value among the plurality of values included between the first time point and the second time point matching the threshold within the distribution of the probability.
  • the at least one processor corresponds to the time domain using a probability of identifying the plurality of peak values included in feature information based on the audio signal using a neural network. The distribution of the above probability can be obtained.
  • the neural network may be a first neural network.
  • the at least one processor calculates at least one of a trajectory of a ball, a position of a glove, a home plate, or a strike zone from the multimedia content using a second neural network that is different from the first neural network. Based on the identification, the video signal can be obtained.
  • the characteristic information may be based on at least one of the frequency or amplitude of the audio signal within the time domain.
  • the first time point may be a time point when the slope of the probability distribution is a positive number.
  • the second time may be a time when the slope of the probability distribution is negative.
  • the at least one processor may acquire content different from the multimedia content segmented from the video signal during the time from the first time point to the second time point. there is.
  • the time may include a point in time when the specified motion was captured.
  • the at least one processor may obtain at least one of a pitching screen and a catching screen from the multimedia content using a third neural network.
  • At least one peak value among the plurality of peak values may correspond to a point in time at which a sound caused by contact between a ball and an external object, including a glove or a bat, included in the video signal is captured.
  • the designated motion may include a motion of pitching the ball, or a motion of the ball contacting the glove or the bat.
  • the at least one processor may identify, from the video signal, at least one value within the distribution of probabilities that is less than or equal to a threshold.
  • the at least one processor may identify, within the time domain, the largest value among at least one value less than or equal to the threshold value included in the feature information as a peak value.
  • the at least one processor may obtain a time point corresponding to the identified peak value when the instructions are executed.
  • the at least one processor may identify, from the video signal, a single peak value within the distribution of probabilities that exceeds a threshold value.
  • the at least one processor may obtain a time point corresponding to the one peak value when the instructions are executed.
  • a method of an electronic device may include receiving a request to detect a point in time at which a specified motion was captured from multimedia content.
  • the method of the electronic device may include an operation of obtaining a distribution of the probability that the specified motion has been performed in a time domain, based on the audio signal in the multimedia content.
  • the method of the electronic device includes, based on identifying a plurality of peak values within the obtained distribution, within the multimedia content, using a video signal synchronized to the audio signal, corresponding to the plurality of peak values.
  • the operation may include obtaining one viewpoint at which the specified motion is captured.
  • At least one peak value among the plurality of peak values may match the largest value among the plurality of values included between the first time point and the second time point matching the threshold within the distribution of the probability.
  • the method of the electronic device uses a neural network to determine the distribution of the probability corresponding to the time domain using the probability that the plurality of peak values included in feature information are identified based on the audio signal. It may include acquisition operations.
  • the neural network may be a first neural network.
  • the method of the electronic device is based on identifying at least one of a trajectory of a ball, a position of a glove, a home plate, or a strike zone from the multimedia content using a second neural network different from the first neural network, It may include an operation of acquiring the video signal.
  • the characteristic information may be based on at least one of the frequency or amplitude of the audio signal within the time domain.
  • the first time point may be a time point when the slope of the probability distribution is a positive number.
  • the second time may be a time when the slope of the probability distribution is negative.
  • it may include an operation of acquiring content different from the multimedia content segmented from the video signal during the time from the first time point to the second time point.
  • the time may include a point in time when the specified motion was captured.
  • it may include obtaining at least one of a pitching screen or a catching screen from the multimedia content using a third neural network.
  • a method of an electronic device may include receiving a request to detect a point in time at which a specified motion was captured from multimedia content.
  • the method of the electronic device may include, based on receipt of the request, identifying a point in time at which a sound caused by the specified motion was captured within an audio signal in the multimedia content.
  • the method of the electronic device may include, in response to identifying a time point below a threshold within the audio signal, outputting information indicating that the identified time point is a time point at which the specified motion was captured.
  • the method of the electronic device in response to identifying, within the audio signal, viewpoints above a threshold, selects, based on the video signal within different time intervals containing the viewpoints, one of the viewpoints, It may include an action of selecting the point in time when the specified motion was captured.
  • the method of the electronic device may include an operation of obtaining a probability distribution at which a time point greater than the threshold value is identified based on the audio signal using a neural network.
  • the method of the electronic device may include an operation of acquiring content different from the multimedia content, including a point in time at which the specified motion was captured, based on the video signal, using the probability distribution.
  • the sound caused by the specified motion may be a sound generated by contact of at least one external object and a ball.
  • the designated motion may include at least one of a pitching or catching motion.
  • devices and components described in embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), etc. , may be implemented using one or more general-purpose or special-purpose computers, such as a programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions.
  • a processing device may execute an operating system (OS) and one or more software applications that run on the operating system. Additionally, a processing device may access, store, manipulate, process, and generate data in response to the execution of software.
  • OS operating system
  • a processing device may access, store, manipulate, process, and generate data in response to the execution of software.
  • a single processing device may be described as being used; however, those skilled in the art will understand that a processing device includes multiple processing elements and/or multiple types of processing elements. It can be seen that it may include.
  • a processing device may include a plurality of processors or one processor and one controller. Additionally, other processing configurations, such as parallel processors, are possible.
  • Software may include a computer program, code, instructions, or a combination of one or more of these, which may configure a processing unit to operate as desired, or may be processed independently or collectively. You can command the device.
  • Software and/or data may be used on any type of machine, component, physical device, virtual equipment, computer storage medium or device to be interpreted by or to provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave.
  • Software may be distributed over networked computer systems and stored or executed in a distributed manner.
  • Software and data may be stored on one or more computer-readable recording media.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer-readable medium.
  • the computer-readable medium may include program instructions, data files, data structures, etc., singly or in combination.
  • Program instructions recorded on the medium may be specially designed and configured for the embodiment or may be known and available to those skilled in the art of computer software.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks.
  • program instructions include machine language code, such as that produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter, etc.
  • the hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)

Abstract

일 실시예에 따른 전자 장치(electronic device)는, 인스트럭션들을 저장하기 위한 메모리, 및 상기 메모리와 작동적으로 결합된(operably coupled to) 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신할 수 있다. 상기 적어도 하나의 프로세서는, 상기 멀티미디어 콘텐트 내 오디오 신호에 기반하여, 시간 영역 내에서(in a time domain) 상기 지정된 모션이 수행된 확률의 분포를 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 획득된 분포 내에서 복수의 피크 값들을 식별하는 것에 기반하여, 상기 멀티미디어 콘텐트 내에서, 상기 오디오 신호에 동기화된 비디오 신호를 이용하여, 상기 복수의 피크 값들에 대응하는 복수의 시점들 중에서, 상기 지정된 모션이 캡쳐된 하나의 시점을 획득할 수 있다.

Description

지정된 모션이 캡쳐된 시점을 추출하는 전자 장치 및 방법
본 문서에서 개시되는 실시예들은, 지정된 모션이 캡쳐된 시점을 추출하는 전자 장치 및 방법에 관한 것이다.
영상으로부터, 시청자의 흥미를 끌기 위하여, 지정된 모션이 캡쳐된 영상을 추출하여, 컨텐츠를 제공하는 전자 장치가 개발되고 있다. 예를 들어, 전자 장치는, 스포츠 경기 영상으로부터, 지정된 모션이 캡쳐된 영상을 추출하여, 경기가 종료된 이후에, 하이라이트 영상을 제공할 수 있다. 전자 장치는, 영상으로부터 지정된 모션이 캡쳐된 시점을 식별하기 위해, 상기 영상에 포함된 오디오 신호를 이용할 수 있다.
전자 장치가 오디오 신호를 이용하여, 지정된 모션이 캡쳐된 시점을 보다 정확하게 추출하는 방안이 요구될 수 있다.
본 문서에서 이루고자 하는 기술적 과제는 상술한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
일 실시예에 따른 전자 장치(electronic device)는, 인스트럭션들을 저장하기 위한 메모리, 및 상기 메모리와 작동적으로 결합된(operably coupled to) 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신할 수 있다. 상기 적어도 하나의 프로세서는, 상기 멀티미디어 콘텐트 내 오디오 신호에 기반하여, 시간 영역 내에서(in a time domain) 상기 지정된 모션이 수행된 확률의 분포를 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 획득된 분포 내에서 복수의 피크 값들을 식별하는 것에 기반하여, 상기 멀티미디어 콘텐트 내에서, 상기 오디오 신호에 동기화된 비디오 신호를 이용하여, 상기 복수의 피크 값들에 대응하는 복수의 시점들 중에서, 상기 지정된 모션이 캡쳐된 하나의 시점을 획득할 수 있다.
일 실시예에 따른 전자 장치의 방법은, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 멀티미디어 콘텐트 내 오디오 신호에 기반하여, 시간 영역 내에서(in a time domain) 상기 지정된 모션이 수행된 확률의 분포를 획득하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 획득된 분포 내에서 복수의 피크 값들을 식별하는 것에 기반하여, 상기 멀티미디어 콘텐트 내에서, 상기 오디오 신호에 동기화된 비디오 신호를 이용하여, 상기 복수의 피크 값들에 대응하는 복수의 시점들 중에서, 상기 지정된 모션이 캡쳐된 하나의 시점을 획득하는 동작을 포함할 수 있다.
일 실시예에 따른 전자 장치의 방법은, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 요청의 수신에 기반하여, 상기 멀티미디어 콘텐트 내 오디오 신호 내에서, 상기 지정된 모션에 의해 야기되는(caused by) 소리가 캡쳐된 시점을 식별하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 오디오 신호 내에서, 임계 값 미만의 시점을 식별하는 것에 응답하여, 상기 식별된 시점이 상기 지정된 모션이 캡쳐된 시점임을 나타내는 정보를 출력하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 오디오 신호 내에서, 임계 값 이상의 시점들을 식별하는 것에 응답하여, 상기 시점들을 포함하는 상이한 시간 구간들 내 비디오 신호에 기반하여, 상기 시점들 중 어느 한 시점을, 상기 지정된 모션이 캡쳐된 시점으로 선택하는 동작을 포함할 수 있다.
전자 장치는 영상에 포함된 비디오 신호 또는 오디오 신호 중 적어도 하나에 기반하여, 시간 영역 내에서 지정된 모션이 캡쳐된 시점을 보다 정확하게 획득할 수 있다.
본 개시에서 얻을 수 있는 효과는 상술한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은, 일 실시예에 따른(according to an embodiment), 전자 장치의 블록도이다.
도 2는, 일 실시예에 따른 전자 장치가 메모리 내에 저장된 파라미터들의 집합으로부터 획득하는 뉴럴 네트워크를 설명하기 위한 예시를 도시한다.
도 3은, 일 실시예에 따른, 전자 장치가 영상으로부터 지정된 모션이 캡쳐된 영상을 추출하는 동작을 설명하기 위한 예시를 도시한다.
도 4는, 일 실시예에 따른, 전자 장치가 영상에 포함된 오디오 신호에 기반하여, 지정된 모션과 관련된 소리가 녹음된 확률의 피크 값을 식별하는 동작을 설명하기 위한 예시를 도시한다.
도 5는, 일 실시예에 따른, 전자 장치가, 오디오 신호 내에서, 피크 값에 대응하는 시점을 획득하기 위한 예시를 도시한다.
도 6a 내지 도 6c는, 일 실시예에 따른, 전자 장치가, 오디오 신호에 포함된 피크 값의 개수를 이용하여, 피크 값에 대응하는 시점을 식별하기 위한 동작을 설명하기 위한 예시를 도시한다.
도 7은, 일 실시예에 따른, 전자 장치가 뉴럴 네트워크를 통하여, 객체들을 추출하고, 추출된 객체들을 통해 공의 위치를 추적하는 예시를 도시한다.
도 8은, 일 실시예에 따른, 전자 장치가 비디오 신호에 기반하여 식별되는 공의 궤적을 이용하여, 오디오 신호에 포함된 복수의 피크들 중 하나의 피크를 선택하는 동작을 설명하기 위한 예시를 도시한다.
도 9는, 일 실시예에 따른, 전자 장치가, 지정된 모션이 캡쳐된 시점을 검출하기위한 동작을 설명하기 위한 흐름도이다.
도 10은, 일 실시예에 따른, 전자 장치가, 피크 개수에 기반한 동작을 설명하기 위한 흐름도이다.
도 11은, 일 실시예에 따른, 전자 장치가, 뉴럴 네트워크를 이용하여, 영상으로부터 지정된 모션이 캡쳐된 영상을 추출하기위한 동작을 설명하기 위한 흐름도이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은, 일 실시예에 따른, 전자 장치(101)의 블록도이다.
도 1을 참고하면, 일 실시예에 따른 전자 장치(101)는 프로세서(110), 메모리(120), 또는 통신 회로(140) 중 적어도 하나를 포함할 수 있다. 프로세서(110), 메모리(120), 및 통신 회로(140)는 통신 버스(a communication bus)와 같은 전자 소자(electronical component)에 의해 서로 전기적으로 및/또는 작동적으로 연결될 수 있다(electronically and/or operably coupled with each other). 전자 장치(101)에 포함된 하드웨어 컴포넌트의 타입 및/또는 개수는 도 1에 도시된 바에 제한되지 않는다. 예를 들어, 전자 장치(101)는 도 1에 도시된 하드웨어 컴포넌트 중 일부만 포함할 수 있다.
일 실시예에 따른 전자 장치(101)의 프로세서(110)는 하나 이상의 인스트럭션들에 기반하여 데이터를 처리하기 위한 하드웨어 컴포넌트를 포함할 수 있다. 데이터를 처리하기 위한 하드웨어 컴포넌트는, 예를 들어, ALU(Arithmetic and Logic Unit), FPGA(Field Programmable Gate Array) 및/또는 CPU(Central Processing Unit)를 포함할 수 있다. 프로세서(110)의 개수는 하나 이상일 수 있다. 예를 들어, 프로세서(110)는 듀얼 코어(dual core), 쿼드 코어(quad core) 또는 헥사 코어(hexa core)와 같은 멀티-코어 프로세서의 구조를 가질 수 있다.
일 실시예에 따른 전자 장치(101)의 메모리(120)는 프로세서(110)에 입력 및/또는 출력되는 데이터 및/또는 인스트럭션을 저장하기 위한 하드웨어 컴포넌트를 포함할 수 있다. 메모리(120)는, 예를 들어, RAM(Random-Access Memory)와 같은 휘발성 메모리(Volatile Memory) 및/또는 ROM(Read-Only Memory)와 같은 비휘발성 메모리(Non-Volatile Memory)를 포함할 수 있다. 휘발성 메모리는, 예를 들어, DRAM(Dynamic RAM), SRAM(Static RAM), Cache RAM, PSRAM (Pseudo SRAM) 중 적어도 하나를 포함할 수 있다. 비휘발성 메모리는, 예를 들어, PROM(Programmable ROM), EPROM (Erasable PROM), EEPROM (Electrically Erasable PROM), 플래시 메모리, 하드디스크, 컴팩트 디스크, eMMC(Embedded Multi Media Card) 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 전자 장치(101)의 메모리(120) 내에서, 프로세서(110)가 데이터에 수행할 동작을 나타내는 하나 이상의 인스트럭션들이 저장될 수 있다. 인스트럭션들의 집합은, 펌웨어, 운영 체제, 프로세스, 루틴, 서브-루틴 및/또는 어플리케이션으로 참조될 수 있다. 예를 들어, 전자 장치(101) 및/또는 전자 장치(101)의 프로세서(110)는 어플리케이션 형태로 배포된 복수의 인스트럭션들의 집합(set of a plurality of instructions)을 실행하여, 도 3 내지 도 8의 동작들 중 적어도 하나를 수행할 수 있다.
일 실시예에 따른 전자 장치(101)의 메모리(120) 내에, 뉴럴 네트워크(125)와 관련된 파라미터들의 집합이 저장될 수 있다. 뉴럴 네트워크(125)는, 많은 수의 인공 뉴런(또는, 노드)들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 소프트웨어나 하드웨어로 구현된 인식 모델이다. 뉴럴 네트워크(125)는 인공 뉴런들을 통해 인간의 인지 작용이나 학습 과정을 수행할 수 있다. 뉴럴 네트워크(125)와 관련된 파라미터들은, 예를 들어, 뉴럴 네트워크(125)에 포함된 복수의 노드들 및/또는 상기 복수의 노드들 사이의 연결에 할당되는(assigned) 가중치를 나타낼 수 있다. 일 실시예에 따른 전자 장치(101)의 메모리(120) 내에 저장된 파라미터들의 집합에 의해 나타나는 뉴럴 네트워크(125)의 구조는 도 2를 통해 후술될 것이다. 메모리(120) 내에 저장된 뉴럴 네트워크(125)의 개수는, 도 1에 도시된 바에 제한되지 않으며, 복수의 뉴럴 네트워크들 각각에 대응하는 파라미터들의 집합들이 메모리(120) 내에 저장될 수 있다.
일 실시예에 따른 전자 장치(101)의 통신 회로(140)는 전자 장치(101) 및 외부 전자 장치 사이의 전기 신호의 송신 및/또는 수신을 지원하기 위한 하드웨어 컴포넌트를 포함할 수 있다. 통신 회로(140)는, 예를 들어, 모뎀(MODEM), 안테나, O/E(Optic/Electronic) 변환기 중 적어도 하나를 포함할 수 있다. 통신 회로(140)는, 이더넷(ethernet), LAN(Local Area Network), WAN(Wide Area Network), WiFi(Wireless Fidelity), Bluetooth, BLE(Bluetooth Low Energy), ZigBee, LTE(Long Term Evolution), 5G NR(New Radio)와 같은 다양한 타입의 프로토콜에 기반하여 전기 신호의 송신 및/또는 수신을 지원할 수 있다.
일 실시예에 따른 전자 장치(101)는 뉴럴 네트워크(125)를 이용하여, 영상으로부터, 지정된 모션이 포함된 영상을 추출(extract)할 수 있다. 전자 장치(101)는 상기 추출된 영상에 포함된 비디오 신호로부터, 상기 영상에 포함된 적어도 하나의 외부 객체를 식별할 수 있다. 전자 장치(101)는 상기 외부 객체를 식별하는 것에 기반하여, 지정된 모션이 캡쳐된 시점을 식별할 수 있다. 전자 장치(101)는, 상기 추출된 영상에 포함된 오디오 신호로부터, 공이 적어도 하나의 외부 객체와 접촉하는 소리를 식별할 수 있다. 예를 들어, 전자 장치(101)는 뉴럴 네트워크(125)를 이용하여, 상기 소리가 식별된 시점을 기반하여, 상기 지정된 모션이 캡쳐된 시점을 조정할 수 있다. 일 예로, 상기 캡쳐된 시점은, 경기 영상에 포함된 배팅 이벤트가 포함된 영상의 시점을 의미할 수 있다. 상기 시점은, 배팅 시점, 포구 시점 또는 투구 시점으로 참조될 수 있다. 상기 지정된 모션은 공을 투구하는 모션 또는 적어도 하나의 외부 객체와 상기 공이 접촉하는 모션 중 적어도 하나를 포함할 수 있다. 상기 외부 객체는 글러브, 배트, 홈 플레이트, 또는 기구물 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 전자 장치(101)의 메모리(120)는, 복수의 뉴럴 네트워크를 포함할 수 있다. 예를 들어, 제1 뉴럴 네트워크(151)는, 영상에 포함된 오디오 신호 내에서, 적어도 하나의 피크 값을 식별하도록 학습된 뉴럴 네트워크의 일 예일 수 있다. 전자 장치(101)가 제1 뉴럴 네트워크(151)를 이용하여, 상기 오디오 신호 내에서, 적어도 하나의 피크 값을 식별하는 동작은 도 4에서 후술한다. 예를 들어 제2 뉴럴 네트워크(152)는, 영상에 포함된 비디오 신호 내에서, 외부 객체에 기반하여, 공의 위치를 식별하도록 학습된 뉴럴 네트워크의 일 예일 수 있다.
일 실시예에 따른, 전자 장치(101)는 외부 전자 장치와 통신 채널을 수립하여, 영상을 수신할 수 있다. 상기 외부 전자 장치로부터 수신된 영상은, 스포츠 경기 영상일 수 있다. 외부 전자 장치는, 중계 카메라들이거나, 중계 카메라들로부터 수신한 영상을 통합하고, 가공하여 외부로 전송하는 서버일 수 있다. 공의 위치와 관련된 이미지는, 공이 포함된 이미지일 수 있다. 예를 들면, 상기 공의 위치와 관련된 이미지들은, 투수로부터 포수로 던져진 공, 및/또는 외야수 또는 내야수를 향해 떨어지는 공이 캡쳐된 이미지들일 수 있다. 일 예로, 상기 공의 위치와 관련된 이미지들은, 티잉 그라운드(teeing ground) 및/또는 필드 위에 배치된 공이 캡쳐된 이미지들일 수 있다. 예를 들어, 제3 뉴럴 네트워크(153)는, 경기 영상으로부터, 샷 단위에 따라 그룹핑하여 분할된 영상들을 획득하도록 학습된 뉴럴 네트워크의 일 예일 수 있다. 상기 분할된 영상들 중 적어도 하나는 배팅 영상 및/또는 포구 영상에 대응하는 멀티미디어 콘텐트일 수 있다.
일 실시예에 따른 전자 장치(101)는 지정된 모션이 캡쳐된 시점에 대한 정보를 수신하여, 제1 뉴럴 네트워크(151)를 트레이닝할 수 있다. 전자 장치(101)는 제1 뉴럴 네트워크(151)와 구별되는 다른 뉴럴 네트워크(예, 제2 뉴럴 네트워크(152))를 통하여, 제1 뉴럴 네트워크(151)를 학습시킬 수 있다. 예를 들면, 전자 장치(101)는, 제2 뉴럴 네트워크(152)를 통해 출력되는 적어도 하나의 영상을 생성하는 과정에서, 지정된 모션이 캡쳐된 시점을 식별하여, 제1 뉴럴 네트워크(151)를 학습시킬 수 있다. 예를 들어, 전자 장치(101)는, 제1 뉴럴 네트워크(151)를 통해 출력되는 피크 값에 대응하는 시점을 이용하여, 제2 뉴럴 네트워크(152)를 학습시킬 수 있다.
일 실시예에 따른 전자 장치(101)는 뉴럴 네트워크(125)를 이용하여, 적어도 하나의 영상(예, 스포츠 경기 영상)을 수신할 수 있다. 전자 장치(101)는 뉴럴 네트워크(125)에 기반하여, 상기 수신된 적어도 하나의 영상으로부터, 상기 수신된 적어도 하나의 영상과 상이한 영상을 추출할 수 있다. 상기 상이한 영상은 배팅 영상, 투구 영상, 포구 영상, 광고 영상, 덕아웃 영상, 필드 영상, 또는 관객, 외야수, 및/또는 내야수가 포함된 영상 중 하나의 영상을 포함할 수 있다.
이하에서는, 도 2를 참고하여, 일 실시예에 따른 전자 장치(101)가 메모리(120) 내에 저장된 파라미터들의 집합에 기반하여 획득하는 뉴럴 네트워크(125)가 설명된다.
도 2는, 일 실시예에 따른 전자 장치가 메모리 내에 저장된 파라미터들의 집합으로부터 획득하는 뉴럴 네트워크를 설명하기 위한 예시를 도시한다. 도 2의 뉴럴 네트워크(125)는 제1 뉴럴 네트워크(151) 내지 제3 뉴럴 네트워크(153)를 포함할 수 있다.
도 2를 참고하면, 뉴럴 네트워크(125)는 복수의 레이어들을 포함할 수 있다. 예를 들어, 뉴럴 네트워크(125)는 입력 레이어(210), 하나 이상의 히든 레이어들(220) 및 출력 레이어(230)를 포함할 수 있다. 입력 레이어(210)는 입력 데이터를 나타내는 벡터(예, 입력 레이어(210)에 포함된 노드들의 개수에 대응하는 원소들(elements)을 가지는 벡터)를 수신할 수 있다. 입력 데이터에 의해 발생된, 입력 레이어(210) 내 노드들 각각에서 발생된 신호들은, 입력 레이어(210)에서 히든 레이어들(220)로 송신될 수 있다. 출력 레이어(230)는, 히든 레이어들(220)로부터 수신된 하나 이상의 신호들에 기반하여, 뉴럴 네트워크(125)의 출력 데이터를 생성할 수 있다. 상기 출력 데이터는, 예를 들어, 출력 레이어(230)에 포함된 노드들의 개수에 대응하는 원소들을 가지는 벡터를 포함할 수 있다.
도 2를 참고하면, 하나 이상의 히든 레이어들(220)이 입력 레이어(210) 및 출력 레이어(230) 사이에 위치할 수 있고, 입력 레이어(210)를 통해 전달된 입력 데이터를 예측하기 쉬운 값으로 변환할 수 있다. 입력 레이어(210), 하나 이상의 히든 레이어들(220) 및 출력 레이어(230)는 복수의 노드들을 포함할 수 있다. 하나 이상의 히든 레이어들(220)은, 도시된 피드포워드(feedforward) 기반의 토폴로지에 제한되지 않으며, 예를 들어, CNN(convolutional neural network)에서의 콘볼루션 필터(convolution filter) 또는 완전 연결 레이어(fully connected layer)이거나, 특별한 기능이나 특징을 기준으로 묶인 다양한 종류의 필터 또는 레이어일 수 있다. 일 실시예에서, 하나 이상의 히든 레이어들(220)은 출력 값이 현재 시간의 히든 레이어에 다시 입력되는 리커런트 뉴럴 네트워크(recurrent neural network, RNN)에 기반하는 레이어일 수 있다. 일 예로, 입력 레이어(210), 하나 이상의 히든 레이어들(220) 및/또는 출력 레이어(230)는 트랜스포머(transformer) 모델의 일부 레이어일 수 있다. 일 실시예에 따른 뉴럴 네트워크(125)는 다수의(numerous) 히든 레이어들(220)을 포함하여, 딥 뉴럴 네트워크(deep neural network)를 형성할 수 있다. 딥 뉴럴 네트워크를 학습시키는 것을 딥 러닝(deep learning)이라 한다. 뉴럴 네트워크(125)의 노드 중에서, 히든 레이어들(220)에 포함된 노드를 가리켜 히든 노드라 한다.
입력 레이어(210) 및 하나 이상의 히든 레이어들(220)에 포함된 노드들은 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있고, 히든 레이어 및 출력 레이어에 포함된 노드들도 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있다. 뉴럴 네트워크(125)를 튜닝 및/또는 트레이닝하는 것은, 뉴럴 네트워크(125)에 포함된 레이어들(예, 입력 레이어(210), 하나 이상의 히든 레이어들(220) 및 출력 레이어(230)) 각각에 포함된 노드들 사이의 연결 가중치를 변경하는 것을 의미할 수 있다. 뉴럴 네트워크(125)의 튜닝은, 예를 들어, 지도 학습(supervised learning) 및/또는 비지도 학습(unsupervised learning)에 기반하여 수행될 수 있다.
일 실시예에 따른 전자 장치는, 비지도 학습에서 강화 학습(reinforcement learning)에 기반하여 뉴럴 네트워크(125)를 튜닝할 수 있다. 예를 들어, 전자 장치는, 뉴럴 네트워크(125)가 에이전트를 제어하기 위해 이용하는 정책 정보를, 에이전트 및 환경 사이의 상호 작용(interaction)에 기반하여 변경할 수 있다. 정책 정보는, 전자 장치가 뉴럴 네트워크를 이용하여 환경 내에서의 에이전트의 액션을 결정하는 규칙으로, 전자 장치는 에이전트 및 환경 사이의 상호 작용에 기반하여 뉴럴 네트워크를 트레이닝하여, 뉴럴 네트워크의 정책 정보를 변경할 수 있다. 예를 들어, 정책 정보는, 에이전트가 획득 가능한 보상 및/또는 목표를 달성하기 위한 최적의 액션 및/또는 액션의 시퀀스를 결정하도록 변경될 수 있다. 일 실시예에 따른 전자 장치는, 상기 상호 작용에 의한 상기 에이전트의 목표 및/또는 보상을 극대화하기 위하여, 상기 뉴럴 네트워크(125)에 의한 상기 정책 정보의 변경을 야기할 수 있다.
도 3은, 일 실시예에 따른, 전자 장치가 영상으로부터 지정된 모션이 캡쳐된 영상을 추출하는 동작을 설명하기 위한 예시를 도시한다. 도 3의 동작은 도 1의 전자 장치(101) 및/또는 도 1의 프로세서(110)가 적어도 하나의 뉴럴 네트워크(예, 도 1의 제3 뉴럴 네트워크(153))를 이용하여, 수행하는 동작의 일 예일 수 있다.
일 실시예에 따른 전자 장치는, 적어도 하나의 외부 전자 장치로부터, 영상(310)을 수신할 수 있다. 영상(310)은, 전자 장치(101)가 외부 전자 장치와 통신 채널을 수립하여, 전자 장치로 수신된 실시간 영상일 수 있다. 영상(310)은 화면 전환(screen change)으로 구성된 영상일 수 있다. 상기 화면 전환은, 연속되는 영상의 적어도 하나의 객체가 포함된 화면에서, 상기 객체와 상이한 객체가 포함된 다른 화면으로 영상이 전환되는 것을 의미할 수 있다. 일 예로, 배팅 영상(333)은 투구 영상(331)으로부터 화면 전환된 화면을 포함할 수 있다. 일 예로, 배팅 영상(333)은 포구 영상을 포함할 수 있다. 상기 화면 전환은, 적어도 하나의 화면이 사라지는 동안, 다른 화면이 표시되는 페이드-아웃(fade out), 적어도 하나의 화면 및 다른 화면이 서로 다른 방향에서 중첩되는 오버랩(overlap) 및/또는 단순 화면 전환으로 구분될 수 있다.
일 실시예에 따른 전자 장치는, 영상(310)으로부터 샷 단위의 영상(330)을 추출하기 위해, 영상(310)과 관련된 로그 정보를 이용할 수 있다. 예를 들어, 전자 장치는, 적어도 하나의 뉴럴 네트워크를 통해, 로그 정보를 수신하거나, 외부 전자 장치로부터 제공되는 영상으로부터 로그 정보를 추출할 수 있다. 예를 들어, 상기 로그 정보는, 경기의 진행 시간, 상기 영상의 프레임 번호, 상기 경기의 진행 정보 또는 상기 영상의 화면 정보 중 적어도 어느 하나를 포함할 수 있다.
일 실시예에 따른 전자 장치는, 외부 전자 장치로부터 수신한 영상(310)을 프레임별로 분할할 수 있다. 예를 들어 전자 장치는, 외부 전자 장치로부터, 수신한 영상(310)을 샷 단위로 분할할 수 있다. 상기 분할된 샷 단위의 영상(330)은 복수의 프레임들을 포함할 수 있다. 예를 들어, 상기 샷 단위는, 하나의 장치로 촬영된 영상(예, 영상의 단일 컷 신(single cut scene))을 의미할 수 있다. 예를 들면, 영상(310)은, 포수 시점에 위치한 카메라가 촬영한 영상, 투수 시점에 위치한 카메라가 촬영한 영상, 외야 카메라가 촬영한 영상 등의 다양한 영상들의 조합으로 형성될 수 있다. 일 예로, 샷 단위는, 카메라들에 의해 촬영된 영상들의 조합 중에서, 단일 카메라가 촬영한 구간을 의미할 수 있다. 예를 들어, 영상(310)은, 제1 카메라로 촬영된 영상이 포함되는 제1 구간과 화면 전환되어, 제2 카메라로 촬영된 영상이 포함되는 제2 구간을 포함할 수 있다. 샷은, 상기 제1 구간의 영상 또는 제2 구간의 영상을 의미할 수 있다.
일 실시예에 따르면, 전자 장치는, 샷 단위의 영상(330) 또는 프레임들을 분류하여, 멀티미디어 콘텐트를 획득할 수 있다. 상기 멀티미디어 콘텐트는 유사한 영상들의 집합일 수 있다. 투구 영상(331), 클로즈업 영상(332) 및/또는 배팅 영상(333)은 상기 멀티미디어 콘텐트에 포함될 수 있다. 일 예로, 상기 멀티미디어 콘텐트는, 광고 영상, 필드 영상 및/또는 관중석 영상을 포함할 수 있다. 전자 장치는, 샷 단위의 영상(330) 중 투수, 타자, 및/또는 포수가 포함되는 영상들 중에서, 공이 이동하는 영상을 식별할 수 있다. 일 예로, 전자 장치는 샷 단위의 영상(330) 중 외야수 및/또는 관객들이 포함되는 영상들 중에서, 공이 이동하는 영상을 식별할 수 있다. 전자 장치는, 프레임들 중에서, 공이 캡쳐된 프레임들을 추출할 수 있다. 상기 추출된 프레임들은 배팅 영상, 투구 영상, 포구 영상, 홈런 영상 및/또는 호수비 영상에 포함될 수 있다.
일 실시예에 따르면, 전자 장치의 프로세서(예, 도 1의 프로세서(110))는, 영상(310)과 관련된 로그 정보를 이용하여, 상기 로그 정보에 의해 나타나는 시점들(예, 공의 이동이 식별되는 시점들) 중에서, 투구 영상(331)이 식별되지 않는 시점이 존재하는 경우, 영상(310)으로부터, 투구 영상(331)이 식별되지 않는 시점에 대응하는 멀티미디어 콘텐트를 추출할 수 있다. 예를 들어, 프로세서는, 로그 정보의 상기 시점들 중에서, 투구 영상(331) 또는 프레임과 매칭되지 않는 시점을 식별하고, 상기 식별된 시점의 전 및/또는 후에 생성된 영상 또는 프레임과, 투구 추적 장치의 로그 정보에 포함된 타임 스탬프(timestamp) 차이를 이용하여, 영상(310)으로부터 투구 영상(331)을 더 추출할 수 있다(may further extract). 투구 영상(331) 및/또는 배팅 영상(333)은 적어도 하나의 지정된 모션이 캡쳐된 영상일 수 있다. 상기 지정된 모션은 공을 투구하는 모션 또는 글러브 및/또는 배트에 상기 공이 접촉하는 모션 중 적어도 하나를 포함할 수 있다. 상기 투구 추적 장치로부터 적어도 하나의 정보를 획득하는 동작은, 도 7에서 후술한다.
일 실시예에 따른 전자 장치는 영상(310)으로부터, 샷 단위의 영상(330)을 추출하여, 투구 영상(331), 클로즈업 영상(332) 및/또는 배팅 영상(333)과 상이한 영상을 획득할 수 있다. 상기 상이한 영상은 광고 영상, 덕아웃 영상, 또는 관객, 외야수, 및/또는 내야수가 포함된 영상 중 하나의 영상을 포함할 수 있다.
상술한 바와 같이, 전자 장치는 서버 및/또는 외부 전자 장치로부터 영상을 수신하고, 상시 수신된 영상으로부터, 샷 단위의 영상을 그룹핑할 수 있다. 전자 장치는 그룹핑된 샷 단위의 영상 중 지정된 모션이 캡쳐된 영상을 추출할 수 있다. 일 실시예에 따른 전자 장치는, 상기 캡쳐된 영상에 포함된 비디오 신호 및/또는 오디오 신호를 적어도 하나의 뉴럴 네트워크에게 송신할 수 있다. 전자 장치가 적어도 하나의 뉴럴 네트워크를 이용하여 오디오 신호에 포함된 피크 값을 식별하는 동작은 도 4에서 후술한다.
도 4는, 일 실시예에 따른, 전자 장치가 영상에 포함된 오디오 신호에 기반하여, 지정된 모션과 관련된 소리가 녹음된 확률의 피크 값을 식별하는 동작을 설명하기 위한 예시를 도시한다. 피크 값을 식별하는 동작은 도 1의 전자 장치(101) 및/또는 도 1의 프로세서(110)에 의해 수행될 수 있다.
도 4를 참고하면, 오디오 신호(410)의 진폭을 시간 영역을 따라 도시한 그래프가 도시된다. 일 실시예에 따른 전자 장치는, 도 3의 샷 단위의 영상(330)중 적어도 하나의 영상으로부터, 오디오 신호(410)를 추출할 수 있다. 오디오 신호(410)는 wav 형식으로 전자 장치에 수신될 수 있다. 예를 들어, 전자 장치는, 오디오 신호(410)를 수신하여, 시간 영역 내에서, 진폭(amplitude)의 변화를 식별할 수 있다. 예를 들어, 영상(예, 도 3의 배팅 영상(333))에 포함된 오디오 신호(410)는, 스포츠 경기 중에 배치된 적어도 하나의 외부 전자 장치에 의해 획득된 신호의 일 예일 수 있다. 오디오 신호(410)는 공이 글러브 또는 배트를 포함한 적어도 하나의 외부 객체와 접촉하는 소리, 경기 해설 음성, 및/또는 관객들의 소리를 포함할 수 있다.
일 실시예에 따른 전자 장치는 오디오 신호(410)로부터 특징 정보(430)를 획득할 수 있다. 예를 들어 특징 정보(430)는 시간 영역 내에서, 오디오 신호(410)에 포함된 주파수 또는 진폭 중 적어도 하나를 포함할 수 있다. 예를 들어, 도 4를 참고하면, 특징 정보(430)를 파형(waveform) 및 스펙트럼(spectrum)을 결합한 스펙트로그램(spectrogram)으로 나타낸 그래프가 도시된다. 일 예로, 파형은, 시간의 변화에 기반한 진폭의 변화를 의미할 수 있다. 스펙트럼은 주파수(frequency) 변화에 기반한 진폭의 변화를 의미할 수 있다. 특징 정보(430)는 시간 및/또는 주파수의 변화에 기반한 진폭의 변화를 포함할 수 있다.
일 실시예에 따른, 전자 장치는 제1 뉴럴 네트워크(151)를 이용하여, 오디오 신호(410)로부터 획득된 특징 정보(430)에 기반하여, 시간 영역 내에서, 지정된 모션에 의해 발생되는 소리가 캡쳐된 확률의 분포를 포함하는 정보(450)를 획득할 수 있다. 도 4를 참고하면, 정보(450)를 시간 영역을 따라 나타낸 그래프가 도시된다. 예를 들어, 정보(450)에 포함된 확률의 분포는, 시간 영역 내에서, 이산적인 시간들에 대응하는, 지정된 모션에 의해 발생되는 소리가 식별될 수 있는 확률들을 포함할 수 있다. 상기 확률의 분포는, 시간 영역 내에서, 상기 식별될 수 있는 확률들을 0과 1사이의 score 값으로 나타낼 수 있다. 전자 장치는 상기 확률의 분포에 기반하여, score 값을 획득할 수 있다. 전자 장치는 상기 score 값에 기반하여, 적어도 하나의 피크를 식별할 수 있다.
일 실시예에 따른 전자 장치의 프로세서(예, 도 1의 프로세서(110))는 특징 정보(430)를 제1 뉴럴 네트워크(151)로 송신할 수 있다. 예를 들어, 제1 뉴럴 네트워크(151)는 도 2의 뉴럴 네트워크(125)에 포함될 수 있다. 제1 뉴럴 네트워크(151)는 CNN(convolutional neural network) 및/또는 RNN(recurrent neural network) 구조를 포함할 수 있다. 제1 뉴럴 네트워크(151)는, 도 2의 입력 레이어(210), 도 2의 히든 레이어들(220), 또는 도 2의 출력 레이어(230) 중 적어도 하나를 포함할 수 있다. 전자 장치는 제1 뉴럴 네트워크(151)를 통해, 지정된 모션에 의해 발생되는 소리가 식별되는 시점을 확인(verify)할 수 있다. 상기 시점은 피크 값(470)에 매칭될 수 있다.
일 실시예에 따른, 전자 장치는, 제1 뉴럴 네트워크(151)를 이용하여, 지정된 값을 초과하는 값을 가진 피크 값(470)을 식별할 수 있다. 상기 지정된 값은 임계 값(예, 도 4의
Figure PCTKR2022008660-appb-img-000001
)(455)에 대응할 수 있다. 전자 장치는 임계 값(455)을 설정(set)할 수 있다. 예를 들어, 임계 값(455)이 0.5로 설정된 경우, 전자 장치는 제1 뉴럴 네트워크(151)를 통해, 정보(450)에 포함된 확률의 분포에 기반하여, 0.5를 초과하는 값들을 식별할 수 있다. 일 예로, 전자 장치는 상기 식별된 값들 중 가장 큰 값을 피크 값(470)으로 식별할 수 있다. 예를 들어, 피크 값(470)은 지정된 모션에 의해 발생되는 소리가 캡쳐된 시점에 매칭될 수 있다. 피크 값(470)은 영상(예, 도 3의 배팅 영상(333))에 포함된 타구 음에 대응할 수 있다.
일 실시예에 따른 전자 장치는, 피크 값(470)이 식별되는 시점에 기반하여, 지정된 모션이 캡쳐된 시점을 획득할 수 있다. 전자 장치는 상기 캡쳐된 시점을 획득하기 위해, 뉴럴 네트워크를 학습시킬 수 있다. 전자 장치는 상기 캡쳐된 시점을 획득하기 위해, 사전 학습된 뉴럴 네트워크(예, 제1 뉴럴 네트워크(151))를 이용할 수 있다.
일 실시예에 따른 전자 장치는 피크 값(470)이 식별된 시점을 배팅 시점(또는, 포구 시점)으로 식별할 수 있다. 상기 배팅 시점은, 지정된 시간을 포함할 수 있다. 상기 지정된 시간은 제1 시점(451)부터 제2 시점(452)까지의 시간 영역일 수 있다. 예를 들어, 도 4를 참고하면, 제1 시점(451) 및/또는 제2 시점(452)은 정보(450)에 포함된 확률의 분포에서, 임계 값(455)에 매칭되는 시점을 의미할 수 있다. 전자 장치가 상기 지정된 시간을 획득하는 동작은 도 5에서 후술한다.
일 실시예에 따른 전자 장치는, 시간 영역 내에서, 정보(450)에 포함된 확률의 분포에 기반하여, 노이즈(415, 435)를, 시간 영역 내에서 지정된 모션에 의해 발생되는 소리와 상이한 소리로 식별할 수 있다. 일 예로, 노이즈(415, 435)는 정보(450)에 포함된 확률의 분포에서, 0에 매칭될 수 있다. 예를 들어, 노이즈(415, 435)는, 영상에 포함된 오디오 신호 내에서, 공이 적어도 하나의 외부 객체와 접촉한 소리를 제외한 소리의 일 예일 수 있다. 상기 공이 적어도 하나의 외부 객체와 접촉한 소리는 타구 음, 타격 음, 및/또는 배팅 음으로 참조될 수 있다. 상기 공이 적어도 하나의 외부 객체와 접촉한 소리를 제외한 소리는 영상에 포함된, 관객들의 소리, 및/또는 경기 해설 음성의 일 예일 수 있다.
일 실시예에서, 전자 장치는, 지정된 주파수를 포함하는 특징 정보를 식별하여, 호수비(fine play) 시점을 획득할 수 있다. 상기 호수비 시점은 투구 시점 또는 배팅 시점 중 적어도 하나의 시점과 상이한 시점일 수 있다. 예를 들어, 전자 장치는, 호수비 시점에 매칭되는 호수비 영상을, 영상(예, 도 3의 영상(310))에서, 투구 시점이 포함된 투구 영상(예, 도 3의 투구 영상(331)) 이후에 발생하는, 화면 전환에 기반하여, 식별할 수 있다. 예를 들어, 전자 장치는, 제1 뉴럴 네트워크(151)를 이용하여, 오디오 신호에 포함된, 관객들의 소리를 식별할 수 있다. 전자 장치는 관객들의 소리에 대응하는 주파수 및/또는 진폭에 기반하여, 뉴럴 네트워크(예, 제1 뉴럴 네트워크(151))를 학습시킬 수 있다. 전자 장치는, 상기 학습된 뉴럴 네트워크를 이용하여, 상기 호수비 영상에 기반하여, 상기 관객들의 소리에 대응하는 시점을 획득할 수 있다. 상기 획득된 시점은 호수비 시점에 참조될 수 있다.
상술한 바와 같이, 전자 장치는 영상에 포함된 오디오 신호를 통해, 적어도 하나의 타구 음을 획득할 수 있다. 전자 장치는 상기 획득된 타구 음을 이용하여, 영상에 포함된 타구 음이 녹음된 시점을 식별할 수 있다. 이하 도 5에서, 상기 시점을 획득하기 위한 동작이 설명된다.
도 5는, 일 실시예에 따른, 전자 장치가, 오디오 신호 내에서, 피크 값에 대응하는 시점을 획득하기 위한 예시를 도시한다. 도 5의 전자 장치는 도 1의 전자 장치(101)에 대응할 수 있다. 전자 장치는 오디오 신호 내에서 피크 값에 대응하는 시점을 획득하기 위해 적어도 하나의 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))를 이용할 수 있다.
일 실시예에 따른 전자 장치는 영상(예, 도 3의 영상(310))으로부터 추출된 영상 중 적어도 하나(예, 도 3의 배팅 영상(333))에 포함된 오디오 신호로부터, 특징 정보를 추출할 수 있다. 전자 장치는 상기 특징 정보를 이용하여, 확률의 분포(예, 정보(500)에 포함된 확률의 분포)를 획득할 수 있다. 정보(500)는, 도 4의 정보(450)에 참조될 수 있다. 전자 장치는 정보(500)에 포함된 확률의 분포에 기반하여, 임계 값(455)을 초과하는 값들을 포함하는 피크를 식별할 수 있다. 전자 장치는 상기 식별된 피크 중 가장 큰 값인 피크 값(470)을 식별할 수 있다. 도시하지 않았지만, 전자 장치는 복수의 피크들을 식별할 수 있다. 피크 값(470)은 오디오 신호에 포함된 타구 음, 타격 음, 공이 글러브에 접촉하여 발생하는 소리, 공이 땅에 접촉하여 발생하는 소리, 공이 배트에 접촉하여 발생하는 소리, 및/또는 공이 영상에 포함된 적어도 하나의 외부 객체와 상호 작용에 의해 발생하는 소리에 매칭될 수 있다. 일 예로, 피크 값(470)은, 전자 장치가 오디오 신호에 포함된 지정된 주파수 및/또는 파장을 식별하도록 학습된 뉴럴 네트워크를 이용하여 획득한 값일 수 있다.
일 실시예에 따른 전자 장치는 지정된 모션이 캡쳐된 시점을 추출할 수 있다. 상기 시점은 제1 시점(451)부터 제2 시점(452)까지의 대응되는 시점들을 포함할 수 있다. 일 예로, 제1 시점(451)은, 정보(500)에 포함된 확률의 분포에서, 임계 값(455)과 매칭되는 값 중 최초의 값을 의미할 수 있다. 제1 시점(451)에 매칭되는 확률의 분포의 기울기는 양수일 수 있다. 제2 시점(452)은, 정보(500)에 포함된 확률의 분포에서, 임계 값(455)과 매칭되는 값 중 마지막의 값을 의미할 수 있다. 제2 시점(452)에 매칭되는 확률의 분포의 기울기는 음수일 수 있다. 일 예로, 피크 값(470)은, 확률의 분포에서, 제1 시점(451)과 제2 시점(452)의 사이에 존재하는 이산적인 시점 중 중간 시점에 매칭되는 값을 의미할 수 있다. 전자 장치는, 상기 확률의 분포에 기반하여, 임계 값(455)과 매칭되는 값 중 기울기가 양수인 값을 제1 시점(451)으로 식별할 수 있다. 전자 장치는 상기 확률의 분포에 기반하여, 임계 값(455)과 매칭되는 값 중 기울기가 음수인 값을 제2 시점(452)으로 식별할 수 있다.
일 실시예에 따른 전자 장치는 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))에 기반하여, 후술하는 수학식 1을 이용하여, 제1 시점(451) 및/또는 제2 시점(452)을 획득할 수 있다. 그래프(510)는, 정보(500)에서, 제1 시점(451) 및/또는 제2 시점(452)에 매칭되는, 확률의 분포 중 일부를 의미할 수 있다.
Figure PCTKR2022008660-appb-img-000002
상술한 수학식 1에서,
Figure PCTKR2022008660-appb-img-000003
은 '
Figure PCTKR2022008660-appb-img-000004
' 연산에 의해 구분되는 제1 시점(451) 및/또는 제2 시점(452)에 대응하는 시점을 의미할 수 있다. 예를 들어, 부호(예, 수학식 1의
Figure PCTKR2022008660-appb-img-000005
)가 '-'인 경우,
Figure PCTKR2022008660-appb-img-000006
은, 제1 시점(451)을 의미할 수 있다. 부호가 '+'인 경우,
Figure PCTKR2022008660-appb-img-000007
은 제2 시점(452)을 의미할 수 있다.
Figure PCTKR2022008660-appb-img-000008
또는
Figure PCTKR2022008660-appb-img-000009
은, 시간 영역 내에서 이산적인 시간 중 하나의 시간을 의미할 수 있다. 일 예로,
Figure PCTKR2022008660-appb-img-000010
Figure PCTKR2022008660-appb-img-000011
에 대응하는 시간 이전에 시간을 의미할 수 있다.
Figure PCTKR2022008660-appb-img-000012
또는
Figure PCTKR2022008660-appb-img-000013
은, 시간 영역 내에서, 확률의 분포의 값(예, 도 5의 score 값) 중 하나의 값을 의미할 수 있다. 일 예로,
Figure PCTKR2022008660-appb-img-000014
및/또는
Figure PCTKR2022008660-appb-img-000015
은 정보(500)에 포함된, 확률의 분포에서,
Figure PCTKR2022008660-appb-img-000016
및/또는
Figure PCTKR2022008660-appb-img-000017
에 대응하는 score 값을 의미할 수 있다.
Figure PCTKR2022008660-appb-img-000018
은 임계 값(455)을 의미할 수 있다. 일 실시예에 따른 전자 장치는 상술한 수학식 1을 이용하여, 배팅 영상(333)에 포함된 제1 시점(451) 및 제2 시점(452)을 획득할 수 있다.
일 실시예에 따른 전자 장치는, 획득한 제1 시점(451) 및 제2 시점 중 적어도 하나를 이용하여, 수학식 2에 기반하여, 지정된 모션이 캡쳐된 시점을 획득할 수 있다.
Figure PCTKR2022008660-appb-img-000019
상술한 수학식 2에서,
Figure PCTKR2022008660-appb-img-000020
는, 공이 적어도 하나의 외부 객체와 접촉하여 발생하는 소리에 대응하는 시점을 의미할 수 있다.
Figure PCTKR2022008660-appb-img-000021
및/또는
Figure PCTKR2022008660-appb-img-000022
는 지정된 값을 의미할 수 있다. 전자 장치 및/또는 프로세서는
Figure PCTKR2022008660-appb-img-000023
및/또는
Figure PCTKR2022008660-appb-img-000024
을 설정할 수 있다.
Figure PCTKR2022008660-appb-img-000025
은 제2 시점(452)에 참조될 수 있다.
Figure PCTKR2022008660-appb-img-000026
은 제1 시점(451)에 참조될 수 있다.
Figure PCTKR2022008660-appb-img-000027
는, 정보(500)에 포함된 확률의 분포의 값(예, 도 5의 score) 중 가장 큰 값을 의미할 수 있다.
Figure PCTKR2022008660-appb-img-000028
는 임계 값(455)을 의미할 수 있다.
Figure PCTKR2022008660-appb-img-000029
는, 임계 값(455)보다 작은 값들을 포함하는 정보(예, 도 6a의 정보(610)) 내에, 복수의 값들 중 가장 큰 값에 대응하는 시점을 의미할 수 있다. 일 실시예에 따른, 전자 장치는, 수학식 2를 이용하여, 지정된 모션이 캡쳐된 시점을 획득할 수 있다.
일 실시예에 따른 전자 장치는, 임계 값을 초과하는 복수의 값들 중 가장 큰 값을 갖는 피크 값(470)을 식별할 수 있다. 전자 장치는 적어도 하나의 뉴럴 네트워크를 이용하여, 피크 값(470)에 대응하는 시점을 포함하는 지정된 시간을 배팅 시점 및/또는 포구 시점으로 식별할 수 있다. 상기 지정된 시간은, 제1 시점(451)으로부터 제2 시점(452)까지 대응되는 시간 영역을 의미할 수 있다. 전자 장치는 배팅 영상(예, 도 3의 배팅 영상(333)) 또는, 배팅 이벤트가 포함된 복수의 프레임들 중에서 상기 시간 영역에 대응하는 영상 또는 프레임을 추출할 수 있다.
일 실시예에 따른 전자 장치는 피크 값(470)에 대응하는 소리를 타구 음으로 식별할 수 있다. 상기 타구 음은 투구 된 공이 글러브와 접촉으로 발생하는 소리, 타자가 배팅할 때 발생하는 소리, 포수가 공을 놓쳐 땅과 접촉할 때 발생하는 소리, 또는 포수가 공을 놓쳐, 홈 플레이트 뒤의 상 기구물과의 접촉에 의해 발생되는 소리 중 적어도 하나의 소리를 포함할 수 있다. 전자 장치는 상기 식별된 타구 음을 이용하여, 상기 타구 음이 발생된 및/또는 녹음된 시점에 대응하는 영상 및/또는 프레임을 식별할 수 있다. 상기 식별된 영상 및/또는 프레임은 배팅 영상(예, 도 3의 배팅 영상(333))에 포함될 수 있다. 예를 들어, 제1 시점(451)은 피크 값(470)에 대응하는 시점보다 지정된 프레임 앞의 이미지(또는 화면)에 대응하는 시점일 수 있다. 일 예로, 제2 시점(452)은 피크 값(470)에 대응하는 시점보다 지정된 프레임 뒤의 이미지에 대응하는 시점일 수 있다. 다만, 이에 제한되지 않는다.
상술한 바와 같이, 전자 장치는, 적어도 하나의 뉴럴 네트워크를 통해, 배팅 영상에 포함된 오디오 신호에 기반하여, 피크 값의 식별 여부에 따라, 수학식 1 및/또는 수학식 2를 이용하여, 배팅 시점 및/또는 포구 시점을 획득할 수 있다. 전자 장치는, 복수의 멀티미디어 콘텐트를 수신하는 경우, 복수의 배팅 시점 및/또는 복수의 포구 시점을 획득할 수 있다. 전자 장치는 상기 획득한 복수의 배팅 시점에 대응하는 배팅 영상들을 결합하여 사용자에게 제공할 수 있다. 전자 장치는 상기 획득한 복수의 포구 시점에 기반하는 포구 영상들을 결합하여, 사용자에게 제공할 수 있다. 후술하는 도 6a 내지 도 6c에서, 식별된 피크의 개수에 기반하여, 전자 장치가 피크에 대응하는 시점을 획득하는 동작이 설명된다.
도 6a 내지 도 6c는, 일 실시예에 따른, 전자 장치가, 오디오 신호에 포함된 피크 값의 개수를 이용하여, 피크 값에 대응하는 시점을 식별하기 위한 동작을 설명하기 위한 예시를 도시한다. 도 6a 내지 도 6c에 포함된 복수의 피크를 식별하는 동작은 도 1의 전자 장치(101) 및/또는 도 1의 프로세서(110)에 의해 수행될 수 있다. 정보(610), 정보(630), 및/또는 정보(650)는 도 5의 정보(500)에 대응할 수 있다. 피크들(615, 635, 653, 655)은, 각각 상이한 시점에 대응될 수 있다. 다만 상술한 실시예에 제한되지 않는다. 일 예로, 화면들(690-1, 690-2, 690-3, 690-4)은, 도 3의 배팅 영상(333)에 포함된 적어도 하나의 프레임에 대응할 수 있다. 일 예로, 화면들(690-1, 690-2, 690-3, 690-4)을 포함하는 배팅 영상들은 각각 상이할 수 있다.
도 6a를 참고하면, 정보(610)내에서, 임계 값(455) 미만의 값을 가진 적어도 하나의 피크(615)를 포함한 확률의 분포를 나타내는 그래프가 도시된다. 정보(610)에 포함된 확률의 분포는, 시간 영역 내에서, 지정된 모션에 의해 발생되는 소리가 식별될 수 있는 확률들을 포함할 수 있다. 일 실시예에 따른 전자 장치는, 적어도 하나의 피크(615)를 식별할 수 있다. 전자 장치는, 적어도 하나의 뉴럴 네트워크(도 1의 제1 뉴럴 네트워크(151))에 기반하여, 도 5의 수학식 1 및/또는 도 5의 수학식 2를 이용하여, 오디오 신호를 수신하여, 피크(615)를 식별할 수 있다. 일 예로, 피크(615)에 포함된 확률의 분포의 값(예, 도 6a의 score)의 최댓값은, 임계 값(455)미만의 값일 수 있다. 전자 장치는 피크(615)의 최댓값에 대응하는 시점을 획득할 수 있다. 상기 획득한 시점은 타구 음이 녹음된 시점에 매칭될 수 있다. 전자 장치는 상기 획득한 시점에 대응하는 프레임을, 적어도 하나의 영상(예, 도 3의 배팅 영상(333))으로부터, 추출할 수 있다. 상기 프레임은 화면(690-1)에 참조될 수 있다. 화면(690-1)은, 전자 장치에 수신된 상기 적어도 하나의 영상에 포함된 복수의 프레임 중, 공이 적어도 하나의 외부 객체에 접촉하여 발생하는 소리가 포함된, 오디오 신호에 대응되는 화면의 일 예일 수 있다. 화면(690-1)은 투구 된 공이 배트에 접촉한 이후의 화면의 일 예일 수 있다. 예를 들어, 화면(690-1)은 종결 프레임(예, 도 4의 제2 시점(452)에 매칭되는 프레임)에 매칭되는 화면일 수 있다. 전자 장치는 피크(615)의 최댓값에 대응하는 시점에 기반하여, 화면(690-1)을 포함한 영상을 획득할 수 있다.
도 6b를 참고하면, 정보(630)내에, 임계 값(455) 이상의 값을 가진 적어도 하나의 피크를 포함한 확률의 분포를 나타내는 그래프가 도시된다. 일 실시예에 따른 전자 장치는 적어도 하나의 뉴럴 네트워크를 이용하여, 오디오 신호를 수신하여, 임계 값(455)을 초과하는 값을 가진 하나의 피크(635)를 식별할 수 있다. 예를 들어, 전자 장치는 식별된 피크(635)로부터, 도 5의 수학식 1 및/또는 수학식 2를 이용하여, 배팅 시점을 획득할 수 있다. 일 예로, 전자 장치는 수신된 영상으로부터, 피크(635)를 이용하여, 배팅 시점을 식별할 수 있다. 예를 들어, 전자 장치는 샷 단위의 영상(예, 도 3의 샷 단위의 영상(330)) 중 적어도 하나의 영상(예, 도 3의 배팅 영상(333))으로부터, 상기 배팅 시점에 대응하는 프레임들을 식별할 수 있다. 상기 식별된 프레임들 중 적어도 하나는 화면(690-2)에 참조될 수 있다. 화면(690-2)은, 투수에 의해 투구 된 공이, 적어도 하나의 외부 객체와 접촉하여 발생하는 소리가 녹음된 오디오 신호에 매칭되는, 비디오 신호의 일부일 수 있다. 전자 장치는, 도 5의 수학식 1 및/또는 수학식 2를 이용하여, 수신된 영상에 포함된 복수의 프레임들 중, 시작 프레임(예, 도 4의 제1 시점(451)에 매칭되는 프레임) 및/또는 종결 프레임(예, 도 4의 제2 시점(452)에 매칭되는 프레임)을 획득할 수 있다. 일 예로, 전자 장치는, 상기 수신된 영상으로부터, 상기 시작 프레임으로부터 상기 종결 프레임까지의 복수의 프레임들로 구성된 영상을 획득할 수 있다. 상기 복수의 프레임들로 구성된 영상은, 배팅 영상으로부터 분할된(segmented) 영상의 일 예일 수 있다.
도 6c를 참고하면, 정보(650)내에, 복수의 피크들을 포함하는 확률의 분포를 나타내는 그래프가 도시된다. 일 실시예에 따른 전자 장치는 적어도 하나의 뉴럴 네트워크를 이용하여, 오디오 신호를 수신하여, 상기 오디오 신호에 포함된 복수의 피크들(653, 655)을 식별할 수 있다. 복수의 피크들(653, 655)은 타구 음, 또는 노이즈(예, 도 4의 노이즈(415, 435) 중 적어도 하나에 매칭될 수 있다. 예를 들어, 피크(653)는, 타구 음에 매칭되는 피크(655)와 동일한 진폭 및/또는 주파수를 포함하는 소리에 관한 특징 정보와 매칭될 수 있다. 일 예로, 피크(653)에 매칭되는 시점은, 영상(예, 도 3의 배팅 영상(333))에 포함된 관객들의 소리가 녹음된 시점일 수 있다. 피크(653)에 매칭되는 화면은 화면(690-4)과 같이, 전자 장치가 적어도 하나의 뉴럴 네트워크(예, 도 1의 제2 뉴럴 네트워크(152))를 이용하여 공을 식별하는 화면일 수 있다. 예를 들어, 전자 장치는, 복수의 피크들을 식별하는 경우, 적어도 하나의 뉴럴 네트워크(예, 도 1의 제2 뉴럴 네트워크(152))에 기반하여, 투구 영상(예, 도 3의 투구 영상(331))에 포함된 비디오 신호를 이용하여 하나의 피크를 선택할 수 있다. 상기 선택된 피크는, 투구 시점에 매칭되는 피크일 수 있다. 상기 선택된 피크에 매칭되는 시점은, 전자 장치가 상기 비디오 신호를 이용하여 획득한 투구 시점에 대응할 수 있다. 예를 들어, 전자 장치는 상기 비디오 신호를 이용하여, 상기 비디오 신호에 포함된 공의 식별 여부에 기반하여, 투구 시점을 획득할 수 있다.
일 실시예에 따른, 전자 장치는 복수의 피크들(653, 655)을 식별하는 경우, 적어도 하나의 뉴럴 네트워크를 기반하여, 비디오 신호로부터 획득한 배팅 시점에 매칭되는 피크(655)를 식별할 수 있다. 전자 장치는 매칭된 피크(655)와 대응하는 시점을 기반하여, 배팅 시점을 획득할 수 있다. 전자 장치는 상기 비디오 신호로부터 투구 시점을 획득하기 위해, 공의 궤적, 스트라이크 존, 투수 위치, 포수 위치 또는 홈 플레이트 중 적어도 하나를 식별할 수 있다. 전자 장치는 상기 식별에 기반하여, 비디오 신호에 포함된 배팅 시점을 획득할 수 있다. 전자 장치가 상기 식별에 기반하여, 복수의 피크들 중 하나를 선택하는 동작은 도 8에서 후술한다. 예를 들어, 상기 배팅 시점을 포함한 프레임은 화면(690-3)에 참조될 수 있다. 일 예로, 전자 장치는 피크(655)에 포함된 시점(예, 도 4의 제1 시점(451) 및 도 4의 제2 시점(452))을 이용하여, 배팅 영상(예, 도 3의 배팅 영상(333))을 분할(segment)할 수 있다.
일 실시예에 따른 전자 장치는 피크(655)로부터, 도 5의 수학식 1을 이용하여, 영상의 시작 시점(예, 도 4의 제1 시점(451)) 및 영상의 종결 시점(예, 도 4의 제2 시점(452))을 추출할 수 있다. 예를 들어, 전자장치는 상기 획득한 시점에 기반하여, 도 5의 수학식 2를 이용하여, 배팅 시점을 획득할 수 있다. 전자 장치는 상기 영상의 시작 시점 및/또는 영상의 종결 시점을 이용하여, 영상을 크롭(crop)할 수 있다. 상기 크롭된 영상은 배팅 시점 및/또는 포구 시점 중 적어도 하나의 시점을 포함할 수 있다. 예를 들어, 상기 영상의 시작 시점은 투수가 공을 던지기 위해 준비하는 상황(situation), 또는 투수와 포수가 사인을 교환하는(exchange signature) 상황 중 적어도 하나의 상황을 포함하는 화면에 매칭될 수 있다. 상기 영상의 종결 시점은 상기 투수가 투구한 공이 적어도 하나의 외부 객체와 접촉한 이후의 상황을 포함하는 화면에 매칭될 수 있다. 상기 접촉한 이후의 상황은, 타자가 돌진하는 상황, 타자가 배트를 던지는 상황, 포수가 땅에 떨어진 공을 줍는 상황, 포수가 공을 던지는 상황, 또는 포수가 홈 플레이트 뒤에 배치된 기구물을 향해(toword) 돌진하는 상황 중 적어도 하나의 상황을 포함할 수 있다.
상술한 바와 같이 일 실시예에 따른 전자 장치는 영상에 포함된 오디오 신호로부터 식별된 피크의 개수에 기반하여, 배팅 시점을 획득하는 동작을 수행할 수 있다. 전자 장치는 오디오 신호로부터 배팅 시점을 획득하기 위해, 영상에 포함된 비디오 신호를 이용할 수 있다. 전자 장치는 오디오 신호로부터 획득한 배팅 시점에 기반하여, 영상을 분할할 수 있다. 전자 장치는 사용자에게 정확한 배팅 시점에 매칭되는 상기 분할된 영상을 제공할 수 있다. 이하 도 7에서, 전자 장치가 영상에 포함된 복수의 객체 중 적어도 하나를 식별하여, 투구 된 공을 추적하는 동작이, 설명된다.
도 7은, 일 실시예에 따른, 전자 장치가 뉴럴 네트워크를 통하여, 객체들을 추출하고, 추출된 객체들을 통해 공의 위치를 추적하는 예시를 도시한다. 도 7의 뉴럴 네트워크는 도 1의 제2 뉴럴 네트워크(152)를 포함할 수 있다. 화면들(710, 720)은 도 3의 투구 영상(331) 및/또는 배팅 영상(333)에 포함될 수 있다.
도 7을 참조하면, 일 실시예에 따른 전자 장치(예, 도 1의 전자 장치(101))는 뉴럴 네트워크(예: 도 1의 제2 뉴럴 네트워크(152))를 이용하여, 투구 영상을 포함하는 화면(710)으로부터, 투구 위치, 포구 위치, 포수 요구 위치를 포함하는 영역을 포함하는 영역(예, Ball-Zone)을 식별할 수 있다. 도 7의 화면(720)과 같이, 일 실시예에 따른 전자 장치는 상기 뉴럴 네트워크를 이용하여 식별된 영역을 시각화할 수 있다. 일 예로 전자 장치는 뉴럴 네트워크를 통해, 투구 추적 장치로부터 정보를 수신할 수 있다. 상기 투구 추적 장치는, 공의 궤적과 관련된 데이터를 획득하는 장치의 일 예일 수 있다. 상기 투구 추적 장치는, 투구 추적 시스템(PTS, pitch tracking system)이거나, 및/또는 투구 추적 시스템을 이루는 장치일 수 있다. 상기 투구 추적 장치는, 경기장 내의 야구공의 움직임을 추적하여 생성된 정보를 제공할 수 있다. 일 실시예에 따르면, 전자 장치는, 통신 회로(예, 도 1의 통신 회로(140))를 통해, 투구 추적 장치와 통신 채널을 수립하여(by establishing), 공의 위치와 관련된 데이터를 획득할 수 있다.
일 실시예에 따른 전자 장치는 뉴럴 네트워크를 이용하여, 투구 영상을 포함하는 화면(710)의 외부 객체를 식별하여, 상기 식별된 외부 객체가 표시된 화면(720)을 획득할 수 있다. 예를 들면, 뉴럴 네트워크는, 홈 플레이트, 타자, 및/또는 포수에 의해 나타나는 Ball-Zone에 포함되는 외부 객체를 식별할 수 있다. 뉴럴 네트워크는, 상기 식별된 외부 객체가 바운드 박스(bounding box), 점, 및/또는 선(line)에 의해 표시된 화면(720)을 나타내는 정보를 출력할 수 있다. 다른 실시예에 따르면, 뉴럴 네트워크는 투구 영상을 포함하는 화면(710)에서, 투구 영상을 제공하는 것이 가능하다면, Ball-zone을 포함하는 화면(예, 화면(720))의 추출 동작을 생략할 수 있다.
일 실시예에 따른 전자 장치는 뉴럴 네트워크를 이용하여, 추출된 화면(710)내에서, 투구와 관련된 시각적 객체를 식별할 수 있다. 예를 들면, 뉴럴 네트워크는, 공, 포수, 타자, 및/또는 홈 플레이트를 식별할 수 있다. 뉴럴 네트워크는, 상기 식별된 외부 객체에 기반하여, 투구 위치(721), 글러브(722), 및/또는 홈 플레이트(723)를 식별할 수 있다.
일 실시예에 따른 전자 장치는 뉴럴 네트워크를 이용하여, 홈 플레이트(723) 및 타자의 신체 조건에 기반하여, 가상의 평면을 포함하는 스트라이크 존(725)을 생성할 수 있다. 뉴럴 네트워크는, 홈 플레이트(723)를 스트라이크 존(725)의 폭으로 하고, 타자의 무릎부터 허리까지를 스트라이크 존(725)의 높이로 하여, 스트라이크 존(725)을 형성할 수 있다.
일 실시예에 따른 전자 장치는, 식별된 투구 위치(721), 글러브(722) 및 홈 플레이트(723)를 포함하는 영상, 이미지, 또는 화면에 공의 궤적(724)을 나타내는 영상 또는 애니메이션을 오버랩시킬 수 있다.
일 실시예에 따른 전자 장치는 샷 단위의 영상(예, 도 3의 샷 단위의 영상(330)) 중 추출된 투구 영상(예, 도 3의 투구 영상(331))으로부터, 공의 이동 궤적, 투구 위치, 포수 요구 위치, 및/또는 포구 위치 중 적어도 하나를 획득할 수 있다. 전자 장치는 상기 투구 영상에 포함된 복수의 프레임들 각각에 캡쳐된 공의 위치를 식별할 수 있다. 전자 장치는, 상기 식별된 공의 위치에 기반하여, 투구 위치, 포수 요구 위치, 포구 위치 또는 배팅 위치 중 적어도 하나를 식별할 수 있다. 전자 장치는 뉴럴 네트워크를 이용하여, 지정된 시점들에서 공의 위치를 식별할 수 있다. 예를 들어, 전자 장치는 투구 영상에 포함된 홈 플레이트 및 타자를 식별하여, 스트라이크 존을 식별할 수 있다. 전자 장치는, 상기 스트라이크 존을 포함하는 평면을 통과하는 공의 위치를 투구 위치로 식별할 수 있다. 전자 장치는 뉴럴 네트워크에 기반하여, 포수의 글러브 및/또는 타자의 배트를 포함하는 외부 객체를 식별하여, 공과 상기 외부 객체가 상호 작용하는 시점을 식별할 수 있다. 상기 상호 작용하는 시점은, 상기 공과 상기 외부 객체가 접촉하는 시점의 일 예일 수 있다. 상기 시점은, 투구 영상 또는 배팅 영상에 포함된 투구 시점, 배팅 시점, 포구 시점 또는 도 4의 피크 값(470)에 매칭되는 시점의 일 예일수 있다. 전자 장치는, 상기 외부 객체와 상호 작용하는 공의 위치를 포구 위치 또는 배팅 위치로 식별할 수 있다.
일 실시예에 따른 전자 장치는, 뉴럴 네트워크를 이용하여, 투구 영상에 포함된 복수의 프레임들에서, 식별된 공의 위치들을 연결하여, 공의 궤적(724)을 획득할 수 있다. 공이 배트에 가려지거나(예, 헛스윙), 또는 공이 공의 색상과 유사한 색상을 가지는 외부 객체와 중첩되는 경우, 뉴럴 네트워크를 이용하여 획득된 공의 궤적(724)이 프레임들에 의해 캡쳐된 공의 움직임을 완전하게 나타내지 않을 수 있다. 전자 장치가 공이 식별되는 시점에 기반하여, 도 6c의 복수의 피크들(653, 655) 중 적어도 하나의 피크를 선택하는 동작은 도 8에서 후술된다.
일 실시예에 따른 전자 장치는, 궤적(724)이 배팅 시점 및/또는 포구 시점 보다 과거의 프레임에서 중단되는(terminated) 경우, 궤적(724)을 배팅 시점 및/또는 포구 시점의 프레임까지 연장할 수 있다. 예를 들어, 전자 장치는 프레임들 사이에서 궤적(724)에 의해 나타나는 공의 이동 속도에 기반하여 궤적(724)을 연장하여, 지정된 소리(예, 배트 및 공 사이의 충돌에 의해 발생되는 소리, 글러브 공 사이의 충돌에 의해 발생되는 소리, 타격 음, 또는 타구 음 중 적어도 하나)가 녹음된 시점의 프레임에서의 공의 위치를 식별할 수 있다. 상기 지정된 소리는 도 4의 피크 값(470)에 매칭될 수 있다. 전자 장치가 궤적(724)을 연장하는 것은, 상기 예시에 제한되지 않으며, 예를 들어, PTS(pitch tracking system) 정보에 기반하여 수행될 수 있다. 상기 PTS 정보는 로그 정보에 포함될 수 있다.
도 8은, 일 실시예에 따른, 전자 장치가 비디오 신호에 기반하여 식별되는 공의 궤적을 이용하여, 오디오 신호에 포함된 복수의 피크들 중 하나의 피크를 선택하는 동작을 설명하기 위한 예시를 도시한다. 도 8의 전자 장치는 도 1의 전자 장치(101)에 참조될 수 있다. 정보(650)는 도 6c의 정보(650)에 대응할 수 있다. 복수의 피크들(653, 655)은 도 6c의 복수의 피크들(653, 655)에 대응할 수 있다. 전자 장치는, 배팅 영상(예, 도 3의 배팅 영상(333))에 포함된 오디오 신호로부터 확률의 분포를 획득하기 위해, 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))를 이용할 수 있다. 전자 장치는, 투구 영상(예, 도 3의 투구 영상(331))에 포함된 비디오 신호로부터 공의 궤적(예, 도 7의 궤적(724))을 획득하기 위해, 상기 뉴럴 네트워크와 상이한 뉴럴 네트워크(예, 도 1의 제2 뉴럴 네트워크(152))를 이용할 수 있다. 도 8을 참고하면, 정보(810)에 포함된 공이 식별되는 확률의 분포를 시간 영역에 따라 나타내는 그래프가 도시된다.
일 실시예에 따른 전자 장치는 투구 영상에 포함된 복수의 프레임들에서 캡쳐된 복수의 외부 객체(예, 도 7의 투구 위치(721), 도 7의 글러브(722), 도 7의 홈 플레이트(723) 및/또는 도 7의 스트라이크 존(725) 중 적어도 하나)를 식별하는 것에 기반하여, 공의 궤적을 획득할 수 있다. 전자 장치는 적어도 하나의 뉴럴 네트워크를 이용하여, 상기 공의 궤적을 이용하여, 시간 영역 내에서 공이 식별되는 확률의 분포를 획득할 수 있다. 예를 들어, 전자 장치는 상기 확률의 분포 중 공이 식별되는 제1 구간(830)에서, 1(예, score 값)을 획득할 수 있다. 전자 장치는 상기 확률의 분포 중 공이 식별되지 않는 제2 구간(850)에서 0을 획득할 수 있다. 일 예로, 전자 장치가 공을 식별하지 못하는 경우는, 공이 배트에 가려지는 경우, 공이 공의 색상과 유사한 색상을 가지는 외부 객체와 중첩되는 경우 중 적어도 하나의 경우, 또는 공이 외부 객체와 접촉하여 투구 영상에서 사라지는 경우 중 적어도 하나의 경우를 포함할 수 있다.
일 실시예에 따른 정보(650) 및 정보(810)는 동일한 시간 영역을 포함할 수 있다. 예를 들어, 피크(653)에 매칭되는 시점은, 제1 구간(830)에 대응되는 시간 영역에 포함될 수 있다. 상기 시간 영역은 복수의 시점들을 포함할 수 있다. 피크(655)에 매칭되는 시점은, 제2 구간(850)에 대응되는 시간 영역에 포함될 수 있다. 전자 장치는 제1 구간(830)에서 뉴럴 네트워크(예, 도 1의 제2 뉴럴 네트워크(152))를 이용하여 공을 식별하는 동안, 상기 뉴럴 네트워크와 상이한 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))를 이용하여, 오디오 신호에 포함된 피크(653)를 식별할 수 있다. 전자 장치는 식별된 피크(653)는 공이 외부 객체와 접촉하여 발생하는 소리가 아닌 것을 식별할 수 있다. 일 예로, 피크(653)는 공이 외부 객체와 접촉하여 발생하는 소리와 유사한 주파수 및/또는 진폭을 포함한 소리의 특징 정보를 의미할 수 있다.
일 실시예에 따른 전자 장치는 제2 구간(850)에 대응하는 시간 영역 내에서, 뉴럴 네트워크를 이용하여, 공을 식별하지 못하는 동안, 상기 뉴럴 네트워크와 상이한 뉴럴 네트워크를 이용하여, 오디오 신호에 포함된 피크(655)를 식별할 수 있다. 전자 장치는 피크(655)를 타구 음에 매칭되는 소리로 식별할 수 있다. 전자 장치는, 도 5의 수학식 1 및/또는 도 5의 수학식 2를 이용하여, 피크(655)에 매칭되는 시점들(예, 도 4의 제1 시점(451), 도 4의 제2 시점(452))에 기반하여, 투구 영상, 배팅 영상, 포구 영상 또는 상기 영상들에 포함된 비디오 신호 중 적어도 하나를 분할할 수 있다. 상기 분할된 영상들 또는 상기 분할된 비디오 신호는, 상기 시점들에 대응하는 시간 영역에 대응하는 영상, 또는 상기 시점들에 대응하는 프레임들의 집합 중 어느 하나일 수 있다.
도 9는, 일 실시예에 따른 전자 장치가, 지정된 모션이 캡쳐된 시점을 검출하기위한 동작을 설명하기 위한 흐름도이다. 도 9의 동작은 도 1의 전자 장치(101) 및/또는 도 1의 프로세서(110)에 의해 수행될 수 있다.
도 9를 참고하면, 동작 910에서, 일 실시예에 따른 프로세서는, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신할 수 있다. 멀티미디어 콘텐트는 도 3의 샷 단위의 영상(330)을 포함할 수 있다. 상기 지정된 모션은 투수가 공을 투구하는 모션 또는 글러브 및/또는 배트에 상기 공이 접촉하는 모션 중 적어도 하나를 포함할 수 있다. 상기 지정된 모션이 캡쳐된 시점은 투구 영상에 포함된 투구 시점, 포구 시점, 및/또는 배팅 시점을 포함할 수 있다. 검출하라는 요청은 전자 장치의 사용자에 의한 입력을 의미할 수 있다.
도 9를 참고하면, 동작 920에서, 일 실시예에 따른 프로세서는, 멀티미디어 콘텐트 내 오디오 신호에 기반하여, 시간 영역 내에서 지정된 모션이 수행된 확률의 분포를 획득할 수 있다. 예를 들어, 오디오 신호는 도 4의 오디오 신호(410)에 대응될 수 있다. 확률의 분포는 도 4의 정보(450)에 포함될 수 있다. 예를 들어, 프로세서는 적어도 하나의 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))에 기반하여, 상기 오디오 신호를, 시간 영역 내에서, 확률의 분포로 획득할 수 있다. 상기 확률의 분포는 시간 영역 내에 포함된 각각의 시점들에 매칭되는, 지정된 모션에 의해 발생된 소리가 식별되는 확률들의 집합을 의미할 수 있다.
도 9를 참고하면, 동작 930에서, 일 실시예에 따른 프로세서는 상기 획득된 분포 내에서 복수의 피크 값들을 식별하는 것에 기반하여, 상기 멀티미디어 콘텐트 내에서, 상기 오디오 신호에 동기화된 비디오 신호를 이용하여, 상기 복수의 피크 값들에 대응하는 복수의 시점들 중에서 상기 지정된 모션이 캡쳐된 하나의 시점을 획득할 수 있다. 복수의 피크 값들은 도 6c의 복수의 피크들(653, 655)에 대응되는 값을 의미할 수 있다. 상기 복수의 피크들에 대응되는 값은 상기 복수의 피크들의 값 중 최댓값을 의미할 수 있다. 비디오 신호는, 프로세서가 적어도 하나의 뉴럴 네트워크(예, 도 1의 제2 뉴럴 네트워크(152))에 기반하여, 공의 궤적(예, 도 7의 궤적(724))이 식별된 정보를 포함할 수 있다. 오디오 신호에 동기화된 비디오 신호는, 도 8에서, 정보(650)에 포함된 동일한 시간 영역에 매칭되는 정보(810)에 포함된 시간 영역을 의미할 수 있다. 프로세서는, 도 8의 제2 구간(850)에 대응하는 시간 동안 발생한, 도 8의 피크(655)를 타구 음에 대응하는 정보로 식별할 수 있다. 프로세서는 상기 적어도 하나의 뉴럴 네트워크와 상이한 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))에 기반하여, 도 5의 수학식 1 및/또는 도 5의 수학식 2를 이용하여, 상기 타구 음에 매칭되는 시점을 획득할 수 있다. 상기 타구 음은, 타격 음, 공이 글러브, 배트, 홈 플레이트, 또는 기구물 중 적어도 하나를 포함하는 외부객체와의 상호작용에 의해 발생하는 소리를 포함할 수 있다. 예를 들어, 프로세서는 상기 도 5의 수학식 1 및/또는 상기 도 5의 수학식 2를 이용하여, 획득한 시점에 기반하여, 영상(예, 도 3의 투구 영상(331), 또는 도 3의 배팅 영상(333))을 분할할 수 있다.
도 10은, 일 실시예에 따른, 전자 장치가, 피크 개수에 기반한 동작을 설명하기 위한 흐름도이다. 도 10의 동작은 도 1의 전자 장치(101) 및/또는 도 1의 프로세서(110)에 의해 수행될 수 있다.
도 10을 참고하면, 동작 1010에서, 일 실시예에 따른 프로세서는, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신할 수 있다. 프로세서는 동작 1010을, 도 9의 동작 910과 유사하게 수행할 수 있다.
도 10을 참고하면, 동작 1020에서, 일 실시예에 따른 프로세서는, 상기 요청의 수신에 기반하여, 상기 멀티미디어 콘텐트 내 오디오 신호 내에서, 상기 지정된 모션에 의해 야기되는 소리가 캡쳐된 시점을 식별할 수 있다. 예를 들어, 상기 오디오 신호는, 도 4의 오디오 신호(410) 및/또는 도 4의 특징 정보(430)를 포함할 수 있다. 프로세서는 적어도 하나의 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))를 이용하여, 상기 오디오 신호에 기반하여, 확률의 분포(예, 도 4의 정보(450)에 포함된 확률의 분포)를 획득할 수 있다. 상기 지정된 모션은 공을 투구하는 모션 또는 적어도 하나의 외부 객체에 상기 공이 상호작용하는 모션 중 적어도 하나를 포함할 수 있다. 상기 지정된 모션에 의해 야기되는 소리는, 공이 적어도 하나의 외부 객체와 접촉하여 발생하는 소리의 일 예일 수 있다. 예를 들어, 상기 캡쳐된 시점은, 도 4의 피크 값(470)에 대응되는 시점일 수 있다.
도 10을 참고하면, 동작 1030에서, 일 실시예에 따른 프로세서는, 상기 오디오 신호 내에서, 임계 값 이상의 시점을 식별하는지 여부를 확인할 수 있다. 예를 들어, 상기 임계 값은 도 4의 임계 값(455)에 참조될 수 있다. 상기 임계 값 이상의 시점은 도 4의 피크 값(470)에 상응할 수 있다.
도 10을 참고하면, 상기 오디오 신호 내에서, 임계 값 이상의 시점을 식별하지 못하는 경우(1030-아니오), 동작 1040에서, 일 실시예에 따른 프로세서는 임계 값 미만의 시점을 식별하는 것에 응답하여, 상기 식별된 시점이 상기 지정된 모션이 캡쳐된 시점임을 나타내는 정보를 출력할 수 있다. 상기 식별된 시점은, 도 6a의 피크(615)에 매칭될 수 있다. 상기 지정된 모션이 캡쳐된 시점임을 나타내는 정보는, 피크에 대응하는 배팅 시점을 의미할 수 있다. 프로세서는 적어도 하나의 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))에 기반하여, 도 5의 수학식 1 및/또는 도 5의 수학식 2를 이용하여, 배팅 시점을 획득할 수 있다.
도 10을 참고하면, 상기 오디오 신호 내에서, 임계 값 이상의 시점을 식별한 경우(1030-예), 동작 1050에서, 일 실시예에 따른 프로세서는 복수의 임계 값 이상의 시점들을 식별하는지 여부를 판단할 수 있다. 예를 들어, 프로세서는 임계 값 이상의 시점들에 개수에 기반하여, 비디오 신호를 이용할지 여부를 식별할 수 있다.
도 10을 참고하면, 복수의 임계 값 이상의 시점들을 식별하는 경우(1050-예), 동작 1060에서, 일 실시예에 따른 프로세서는 임계 값 이상의 시점들을 식별하는 것에 응답하여, 상기 시점들을 포함하는 상이한 시간 구간들 내 비디오 신호에 기반하여, 상기 시점들 중 어느 한 시점을 상기 지정된 모션이 캡쳐된 시점으로 선택할 수 있다. 상기 비디오 신호는 도 8의 정보(810)를 포함할 수 있다. 상기 시점들은 도 6c의 피크들(653, 655)에 참조될 수 있다. 상기 상이한 시간 구간들은 도 8의 제1 구간(830) 및/또는 제2 구간(850)에 대응할 수 있다.
도 10을 참고하면, 복수의 임계 값 이상의 시점들을 식별하지 못하는 경우(1050-아니오), 동작 1070에서, 일 실시예에 따른 프로세서는 하나의 임계 값 이상의 시점을 식별하는 것에 응답하여, 상기 시점을 상기 지정된 모션이 캡쳐된 시점으로 식별할 수 있다. 예를 들어, 상기 하나의 임계 값 이상의 시점은 도 6b의 피크(635)에 매칭될 수 있다.
도 11은, 일 실시예에 따른, 전자 장치가, 뉴럴 네트워크를 이용하여, 영상으로부터 지정된 모션이 캡쳐된 영상을 추출하기위한 동작을 설명하기 위한 흐름도이다. 도 11의 동작은 도 1의 전자 장치(101) 및/또는 도 1의 프로세서(110)에 의해 수행될 수 있다.
도 11을 참고하면, 동작 1110에서, 일 실시예에 따른 프로세서는, 복수의 뉴럴 네트워크 중 제1 뉴럴 네트워크를 이용하여, 영상을, 샷 단위에 따라 그룹핑하여 분할할 수 있다. 예를 들어, 제1 뉴럴 네트워크는 도 1의 제3 뉴럴 네트워크(153)에 참조될 수 있다. 영상은, 도 3의 영상(310)에 매칭될 수 있다. 샷 단위에 따라 그룹핑하여 분할된 영상은 도 3의 샷 단위의 영상(330)에 매칭될 수 있다. 일 예로, 프로세서는, 영상을 투구 영상, 광고 영상, 호수비(fine play) 영상, 광고 영상, 관중석 영상 및/또는 덕아웃 영상을 그룹핑 하여 분할할 수 있다.
도 11을 참고하면, 동작 1120에서, 일 실시예에 따른 프로세서는, 상기 분할된 그룹 중 투구 영상에 대응하는 하나 이상의 멀티미디어 콘텐트를 식별할 수 있다. 상기 투구 영상에 대응하는 하나 이상의 멀티미디어 콘텐트는 도 3의 투구 영상(331) 또는 도 3의 배팅 영상(333) 중 적어도 하나의 영상을 포함할 수 있다. 예를 들어, 프로세서는 영상으로부터 뉴럴 네트워크에 기반하여, 배팅 영상, 투구 영상, 광고 영상, 덕아웃 영상, 및/또는 관중석 영상을 추출할 수 있다.
도 11을 참고하면, 동작 1130에서, 일 실시예에 따른 프로세서는, 제2 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트에 포함된 오디오 신호에 기반하여, 복수의 피크들이 포함된 확률의 분포를 획득할 수 있다. 제2뉴럴 네트워크는 도 1의 제1 뉴럴 네트워크(151)에 참조될 수 있다. 상기 오디오 신호는, 도 4의 오디오 신호(410) 및/또는 도 4의 특징 정보(430)를 포함할 수 있다. 상기 복수의 피크들이 포함된 확률의 분포는, 도 4의 정보(450), 도 6a의 정보(610), 도 6b의 정보(630), 및/또는 도 6c의 정보(650)에 포함될 수 있다. 복수의 피크들은, 도 4의 피크 값(470)을 포함할 수 있다. 상기 복수의 피크들은, 도 6c의 복수의 피크들(653, 655)에 매칭될 수 있다.
도 11을 참고하면, 동작 1140에서, 일 실시예에 따른 프로세서는, 제3 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트에 포함된 공의 궤적, 글러브, 홈 플레이트, 스트라이크 존 중 적어도 하나가 식별된 시점을 획득할 수 있다. 제3 뉴럴 네트워크는 도 1의 제2 뉴럴 네트워크(152)에 참조될 수 있다. 공의 궤적은 도 7의 궤적(724)에 참조될 수 있다. 글러브는 도 7의 글러브(722)에 매칭될 수 있다. 홈 플레이트는 도 7의 홈 플레이트(723)에 참조될 수 있다. 스트라이크 존은 도 7의 스트라이크 존(725)에 참조될 수 있다. 상기 적어도 하나가 식별된 시점은, 도 8의 제1 구간(830)에 포함될 수 있다.
도 11을 참고하면, 동작 1150에서, 일 실시예에 따른 프로세서는, 상기 복수의 피크들에 대응하는 시점 중 상기 식별된 시점과 상이한 시점에 매칭되는 피크를 선택할 수 있다. 상기 식별된 시점과 상이한 시점은, 도 8의 제2 구간(850)에 포함될 수 있다. 상기 상이한 시점에 매칭되는 피크는, 도 8의 피크(655)에 참조될 수 잇다.
도 11을 참고하면, 동작 1160에서, 일 실시예에 따른 프로세서는, 상기 선택된 피크에 대응하는 시점에 매칭되는 상기 멀티미디어 콘텐트와 상이한 콘텐트를 획득할 수 있다. 프로세서는 적어도 하나의 뉴럴 네트워크(예, 도 1의 제1 뉴럴 네트워크(151))에 기반하여, 도 5의 수학식 1 및/또는 도 5의 수학식 2를 이용하여, 상기 선택된 피크에 대응하는 시점을 획득할 수 있다. 상기 대응하는 시점은, 도 4의 제1 시점(451) 부터 도 4의 제2 시점(452)에 매칭되는 시간 영역을 의미할 수 있다. 상기 상이한 콘텐트는 투구 영상, 포구 영상, 또는 배팅 영상 중 적어도 하나를 포함할 수 있다.
상술한 바와 같이, 일 실시예에 따른 전자 장치의 프로세서는, 뉴럴 네트워크에 기반하여, 영상을 샷 단위의 영상으로 그룹핑할 수 있다. 프로세서는, 상기 그룹핑된 샷 단위의 영상 중 일부를 수신하여, 다른 뉴럴 네티워크에 기반하여, 상기 영상에 포함된 비디오 신호를 이용하여, 투구 영상 정보를 획득할 수 있다. 프로세서는, 상기 영상에 포함된 오디오 신호를 이용하여, 또 다른 뉴럴 네트워크에 기반하여, 상기 획득한 투구 영상 정보를 조정할 수 있다. 프로세서는, 상기 조정된 투구 영상 정보를 사용자에게 제공할 수 있다.
일 실시예에 따른 전자 장치(electronic device)는, 인스트럭션들을 저장하기 위한 메모리, 및 상기 메모리와 작동적으로 결합된(operably coupled to) 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신할 수 있다. 상기 적어도 하나의 프로세서는, 상기 멀티미디어 콘텐트 내 오디오 신호에 기반하여, 시간 영역 내에서(in a time domain) 상기 지정된 모션이 수행된 확률의 분포를 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 획득된 분포 내에서 복수의 피크 값들을 식별하는 것에 기반하여, 상기 멀티미디어 콘텐트 내에서, 상기 오디오 신호에 동기화된 비디오 신호를 이용하여, 상기 복수의 피크 값들에 대응하는 복수의 시점들 중에서, 상기 지정된 모션이 캡쳐된 하나의 시점을 획득할 수 있다.
예를 들어, 상기 복수의 피크 값들 중 적어도 하나의 피크 값은, 상기 확률의 분포 내에서, 임계 값에 매칭되는 제1 시점 및 제2 시점 사이에 포함된 복수의 값들 중 가장 큰 값에 매칭될 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 뉴럴 네트워크를 이용하여, 상기 오디오 신호에 기반하여, 특징 정보에 포함된, 상기 복수의 피크 값들이 식별되는 확률을 이용하여, 상기 시간 영역에 대응하는 상기 확률의 분포를 획득할 수 있다.
예를 들어, 상기 뉴럴 네트워크는, 제1 뉴럴 네트워크일 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 상기 제1 뉴럴 네트워크와 상이한 제2 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트로부터, 공의 궤적, 글러브의 위치, 홈 플레이트 또는 스트라이크 존 중 적어도 하나를 식별하는 것에 기반하여, 상기 비디오 신호를 획득할 수 있다.
예를 들어, 상기 특징 정보는, 상기 오디오 신호로부터, 상기 시간 영역 내에서, 상기 오디오 신호의 주파수, 또는 진폭 중 적어도 하나에 기반할 수 있다.
예를 들어, 상기 제1 시점은, 상기 확률의 분포의 기울기가 양수인 시점일 수 있다. 상기 제2 시점은, 상기 확률의 분포의 기울기가 음수인 시점일 수 있다.
예를 들어, 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 상기 제1 시점으로부터 상기 제2 시점까지의 시간 동안, 상기 비디오 신호를 분할한(segmented) 상기 멀티미디어 콘텐트와 상이한 콘텐트를 획득할 수 있다. 상기 시간은, 상기 지정된 모션이 캡쳐된 하나의 시점을 포함할 수 있다.
예를 들어, 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 제3 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트로부터, 투구 화면, 또는 포구 화면 중 적어도 하나를 획득할 수 있다.
예를 들어, 상기 복수의 피크 값들 중 적어도 하나의 피크 값은, 상기 비디오 신호에 포함된, 글러브, 또는 배트를 포함하는 외부 객체와 공의 접촉에 의해 야기되는 소리가 캡쳐된 시점에 대응할 수 있다. 상기 지정된 모션은, 상기 공을 투구하는 모션, 또는 상기 글러브 또는 상기 배트에 상기 공이 접촉하는 모션을 포함할 수 있다.
예를 들어, 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 상기 비디오 신호로부터, 상기 확률의 분포 내에서, 임계 값 이하의 적어도 하나의 값을 식별할 수 있다. 상기 적어도 하나의 프로세서는, 상기 시간 영역 내에서, 상기 특징 정보에 포함된, 상기 임계 값 이하의 적어도 하나의 값 중 가장 큰 값을 피크 값으로 식별할 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 상기 식별된 피크 값에 대응하는 시점을 획득할 수 있다.
예를 들어, 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 상기 비디오 신호로부터, 상기 확률의 분포 내에서, 임계 값을 초과하는 하나의 피크 값을 식별할 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 상기 하나의 피크 값에 대응하는 시점을 획득할 수 있다.
일 실시예에 따른 전자 장치의 방법은, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 멀티미디어 콘텐트 내 오디오 신호에 기반하여, 시간 영역 내에서(in a time domain) 상기 지정된 모션이 수행된 확률의 분포를 획득하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 획득된 분포 내에서 복수의 피크 값들을 식별하는 것에 기반하여, 상기 멀티미디어 콘텐트 내에서, 상기 오디오 신호에 동기화된 비디오 신호를 이용하여, 상기 복수의 피크 값들에 대응하는 복수의 시점들 중에서, 상기 지정된 모션이 캡쳐된 하나의 시점을 획득하는 동작을 포함할 수 있다.
예를 들어, 상기 복수의 피크 값들 중 적어도 하나의 피크 값은, 상기 확률의 분포 내에서, 임계 값에 매칭되는 제1 시점 및 제2 시점 사이에 포함된 복수의 값들 중 가장 큰 값에 매칭될 수 있다. 상기 전자 장치의 방법은, 뉴럴 네트워크를 이용하여, 상기 오디오 신호에 기반하여, 특징 정보에 포함된, 상기 복수의 피크 값들이 식별되는 확률을 이용하여, 상기 시간 영역에 대응하는 상기 확률의 분포를 획득하는 동작을 포함할 수 있다.
예를 들어, 상기 뉴럴 네트워크는, 제1 뉴럴 네트워크일 수 있다. 상기 전자 장치의 방법은, 상기 제1 뉴럴 네트워크와 상이한 제2 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트로부터, 공의 궤적, 글러브의 위치, 홈 플레이트 또는 스트라이크 존 중 적어도 하나를 식별하는 것에 기반하여, 상기 비디오 신호를 획득하는 동작을 포함할 수 있다.
예를 들어, 상기 특징 정보는, 상기 오디오 신호로부터, 상기 시간 영역 내에서, 상기 오디오 신호의 주파수, 또는 진폭 중 적어도 하나에 기반할 수 있다.
예를 들어, 상기 제1 시점은, 상기 확률의 분포의 기울기가 양수인 시점일 수 있다. 상기 제2 시점은, 상기 확률의 분포의 기울기가 음수인 시점일 수 있다.
예를 들어, 상기 제1 시점으로부터 상기 제2 시점까지의 시간 동안, 상기 비디오 신호를 분할한(segmented) 상기 멀티미디어 콘텐트와 상이한 콘텐트를 획득하는 동작을 포함할 수 있다. 상기 시간은, 상기 지정된 모션이 캡쳐된 하나의 시점을 포함할 수 있다.
예를 들어, 제3 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트로부터, 투구 화면, 또는 포구 화면 중 적어도 하나를 획득하는 동작을 포함할 수 있다.
일 실시예에 따른 전자 장치(electronic device)의 방법은, 멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 요청의 수신에 기반하여, 상기 멀티미디어 콘텐트 내 오디오 신호 내에서, 상기 지정된 모션에 의해 야기되는(caused by) 소리가 캡쳐된 시점을 식별하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 오디오 신호 내에서, 임계 값 미만의 시점을 식별하는 것에 응답하여, 상기 식별된 시점이 상기 지정된 모션이 캡쳐된 시점임을 나타내는 정보를 출력하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 오디오 신호 내에서, 임계 값 이상의 시점들을 식별하는 것에 응답하여, 상기 시점들을 포함하는 상이한 시간 구간들 내 비디오 신호에 기반하여, 상기 시점들 중 어느 한 시점을, 상기 지정된 모션이 캡쳐된 시점으로 선택하는 동작을 포함할 수 있다.
예를 들어, 상기 전자 장치의 방법은, 뉴럴 네트워크를 이용하여, 상기 오디오 신호에 기반하여, 상기 임계 값 이상의 시점이 식별되는 확률의 분포를 획득하는 동작을 포함할 수 있다. 상기 전자 장치의 방법은, 상기 확률의 분포를 이용하여, 상기 비디오 신호에 기반하여, 상기 지정된 모션이 캡쳐된 시점을 포함하는, 상기 멀티미디어 콘텐트와 상이한 콘텐트를 획득하는 동작을 포함할 수 있다.
예를 들어, 상기 지정된 모션에 의해 야기되는 소리는, 적어도 하나의 외부 객체 및 공의 접촉에 의해 발생하는 소리일 수 있다. 상기 지정된 모션은, 투구 또는 포구 모션 중 적어도 하나를 포함할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 전자 장치(electronic device)에 있어서,
    인스트럭션들을 저장하기 위한 메모리; 및
    상기 메모리와 작동적으로 결합된(operably coupled to) 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에,
    멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신하고;
    상기 멀티미디어 콘텐트 내 오디오 신호에 기반하여, 시간 영역 내에서(in a time domain) 상기 지정된 모션이 수행된 확률의 분포를 획득하고; 및
    상기 획득된 분포 내에서 복수의 피크 값들을 식별하는 것에 기반하여, 상기 멀티미디어 콘텐트 내에서, 상기 오디오 신호에 동기화된 비디오 신호를 이용하여, 상기 복수의 피크 값들에 대응하는 복수의 시점들 중에서, 상기 지정된 모션이 캡쳐된 하나의 시점을 획득하는,
    전자 장치.
  2. 제1항에 있어서,
    상기 복수의 피크 값들 중 적어도 하나의 피크 값은,
    상기 확률의 분포 내에서, 임계 값에 매칭되는 제1 시점 및 제2 시점 사이에 포함된 복수의 값들 중 가장 큰 값에 매칭되고, 및
    상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에, 뉴럴 네트워크를 이용하여, 상기 오디오 신호에 기반하여, 특징 정보에 포함된, 상기 복수의 피크 값들이 식별되는 확률을 이용하여, 상기 시간 영역에 대응하는 상기 확률의 분포를 획득하는,
    전자 장치.
  3. 제2항에 있어서,
    상기 뉴럴 네트워크는, 제1 뉴럴 네트워크이고,
    상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에,
    상기 제1 뉴럴 네트워크와 상이한 제2 뉴럴 네트워크를 이용하여,
    상기 멀티미디어 콘텐트로부터, 공의 궤적, 글러브의 위치, 홈 플레이트 또는 스트라이크 존 중 적어도 하나를 식별하는 것에 기반하여, 상기 비디오 신호를 획득하는,
    전자 장치.
  4. 제2항에 있어서,
    상기 특징 정보는,
    상기 오디오 신호로부터, 상기 시간 영역 내에서, 상기 오디오 신호의 주파수, 또는 진폭 중 적어도 하나에 기반하는,
    전자 장치.
  5. 제2항에 있어서,
    상기 제1 시점은,
    상기 확률의 분포의 기울기가 양수인 시점이고, 및
    상기 제2 시점은,
    상기 확률의 분포의 기울기가 음수인 시점인,
    전자 장치.
  6. 제5항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에,
    상기 제1 시점으로부터 상기 제2 시점까지의 시간 동안, 상기 비디오 신호를 분할한(segmented) 상기 멀티미디어 콘텐트와 상이한 콘텐트를 획득하고, 및
    상기 시간은,
    상기 지정된 모션이 캡쳐된 하나의 시점을 포함하는,
    전자 장치.
  7. 제3항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에,
    제3 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트로부터, 투구 화면, 또는 포구 화면 중 적어도 하나를 획득하는,
    전자 장치.
  8. 제1항에 있어서,
    상기 복수의 피크 값들 중 적어도 하나의 피크 값은,
    상기 비디오 신호에 포함된, 글러브, 또는 배트를 포함하는 외부 객체와 공의 접촉에 의해 야기되는 소리가 캡쳐된 시점에 대응하고, 및
    상기 지정된 모션은,
    상기 공을 투구하는 모션, 또는 상기 글러브 또는 상기 배트에 상기 공이 접촉하는 모션을 포함하는,
    전자 장치.
  9. 제2항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에,
    상기 비디오 신호로부터, 상기 확률의 분포 내에서, 임계 값 이하의 적어도 하나의 값을 식별하고,
    상기 시간 영역 내에서, 상기 특징 정보에 포함된, 상기 임계 값 이하의 적어도 하나의 값 중 가장 큰 값을 피크 값으로 식별하고,
    상기 식별된 피크 값에 대응하는 시점을 획득하는,
    전자 장치.
  10. 제2항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 때에,
    상기 비디오 신호로부터, 상기 확률의 분포 내에서, 임계 값을 초과하는 하나의 피크 값을 식별하고, 및
    상기 하나의 피크 값에 대응하는 시점을 획득하는,
    전자 장치.
  11. 전자 장치의 방법에 있어서,
    멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신하는 동작;
    상기 멀티미디어 콘텐트 내 오디오 신호에 기반하여, 시간 영역 내에서(in a time domain) 상기 지정된 모션이 수행된 확률의 분포를 획득하는 동작; 및
    상기 획득된 분포 내에서 복수의 피크 값들을 식별하는 것에 기반하여, 상기 멀티미디어 콘텐트 내에서, 상기 오디오 신호에 동기화된 비디오 신호를 이용하여, 상기 복수의 피크 값들에 대응하는 복수의 시점들 중에서, 상기 지정된 모션이 캡쳐된 하나의 시점을 획득하는 동작을 포함하는,
    방법.
  12. 제11항에 있어서,
    상기 복수의 피크 값들 중 적어도 하나의 피크 값은,
    상기 확률의 분포 내에서, 임계 값에 매칭되는 제1 시점 및 제2 시점 사이에 포함된 복수의 값들 중 가장 큰 값에 매칭되고, 및
    뉴럴 네트워크를 이용하여, 상기 오디오 신호에 기반하여, 특징 정보에 포함된, 상기 복수의 피크 값들이 식별되는 확률을 이용하여, 상기 시간 영역에 대응하는 상기 확률의 분포를 획득하는 동작을 포함하는,
    방법.
  13. 제12항에 있어서,
    상기 뉴럴 네트워크는, 제1 뉴럴 네트워크이고,
    상기 제1 뉴럴 네트워크와 상이한 제2 뉴럴 네트워크를 이용하여,
    상기 멀티미디어 콘텐트로부터, 공의 궤적, 글러브의 위치, 홈 플레이트 또는 스트라이크 존 중 적어도 하나를 식별하는 것에 기반하여, 상기 비디오 신호를 획득하는 동작을 포함하는,
    방법.
  14. 제12항에 있어서,
    상기 특징 정보는,
    상기 오디오 신호로부터, 상기 시간 영역 내에서, 상기 오디오 신호의 주파수, 또는 진폭 중 적어도 하나에 기반하는,
    방법.
  15. 제12항에 있어서,
    상기 제1 시점은,
    상기 확률의 분포의 기울기가 양수인 시점이고, 및
    상기 제2 시점은,
    상기 확률의 분포의 기울기가 음수인 시점인,
    방법.
  16. 제15항에 있어서,
    상기 제1 시점으로부터 상기 제2 시점까지의 시간 동안, 상기 비디오 신호를 분할한(segmented) 상기 멀티미디어 콘텐트와 상이한 콘텐트를 획득하는 동작을 포함하고, 및
    상기 시간은,
    상기 지정된 모션이 캡쳐된 하나의 시점을 포함하는,
    방법.
  17. 제13항에 있어서,
    제3 뉴럴 네트워크를 이용하여, 상기 멀티미디어 콘텐트로부터, 투구 화면, 또는 포구 화면 중 적어도 하나를 획득하는 동작을 포함하는,
    방법.
  18. 전자 장치(electronic device)의 방법에 있어서,
    멀티미디어 콘텐트로부터 지정된 모션이 캡쳐된 시점을 검출하라는 요청을 수신하는 동작;
    상기 요청의 수신에 기반하여, 상기 멀티미디어 콘텐트 내 오디오 신호 내에서, 상기 지정된 모션에 의해 야기되는(caused by) 소리가 캡쳐된 시점을 식별하는 동작;
    상기 오디오 신호 내에서, 임계 값 미만의 시점을 식별하는 것에 응답하여, 상기 식별된 시점이 상기 지정된 모션이 캡쳐된 시점임을 나타내는 정보를 출력하는 동작; 및
    상기 오디오 신호 내에서, 임계 값 이상의 시점들을 식별하는 것에 응답하여, 상기 시점들을 포함하는 상이한 시간 구간들 내 비디오 신호에 기반하여, 상기 시점들 중 어느 한 시점을, 상기 지정된 모션이 캡쳐된 시점으로 선택하는 동작을 포함하는,
    방법.
  19. 제18항에 있어서,
    뉴럴 네트워크를 이용하여, 상기 오디오 신호에 기반하여, 상기 임계 값 이상의 시점이 식별되는 확률의 분포를 획득하는 동작, 및
    상기 확률의 분포를 이용하여, 상기 비디오 신호에 기반하여, 상기 지정된 모션이 캡쳐된 시점을 포함하는, 상기 멀티미디어 콘텐트와 상이한 콘텐트를 획득하는 동작을 포함하는,
    방법.
  20. 제18항에 있어서,
    상기 지정된 모션에 의해 야기되는 소리는,
    적어도 하나의 외부 객체 및 공의 접촉에 의해 발생하는 소리이고,
    상기 지정된 모션은,
    투구 또는 포구 모션 중 적어도 하나를 포함하는,
    방법.
PCT/KR2022/008660 2022-06-17 2022-06-17 지정된 모션이 캡쳐된 시점을 추출하는 전자 장치 및 방법 WO2023243754A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/008660 WO2023243754A1 (ko) 2022-06-17 2022-06-17 지정된 모션이 캡쳐된 시점을 추출하는 전자 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/008660 WO2023243754A1 (ko) 2022-06-17 2022-06-17 지정된 모션이 캡쳐된 시점을 추출하는 전자 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2023243754A1 true WO2023243754A1 (ko) 2023-12-21

Family

ID=89191532

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/008660 WO2023243754A1 (ko) 2022-06-17 2022-06-17 지정된 모션이 캡쳐된 시점을 추출하는 전자 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2023243754A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140142330A (ko) * 2012-03-29 2014-12-11 더 유니버서티 어브 퀸슬랜드 환자 소리들을 처리하기 위한 방법 및 장치
KR20150118002A (ko) * 2014-04-11 2015-10-21 삼성전자주식회사 요약 컨텐츠 서비스를 위한 방송 수신 장치 및 방법
KR20200092502A (ko) * 2019-01-11 2020-08-04 서울과학기술대학교 산학협력단 채팅 데이터와 오디오 데이터를 이용한 하이라이트 영상 생성 장치 및 방법
US20200293783A1 (en) * 2019-03-13 2020-09-17 Google Llc Gating model for video analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140142330A (ko) * 2012-03-29 2014-12-11 더 유니버서티 어브 퀸슬랜드 환자 소리들을 처리하기 위한 방법 및 장치
KR20150118002A (ko) * 2014-04-11 2015-10-21 삼성전자주식회사 요약 컨텐츠 서비스를 위한 방송 수신 장치 및 방법
KR20200092502A (ko) * 2019-01-11 2020-08-04 서울과학기술대학교 산학협력단 채팅 데이터와 오디오 데이터를 이용한 하이라이트 영상 생성 장치 및 방법
US20200293783A1 (en) * 2019-03-13 2020-09-17 Google Llc Gating model for video analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIM, MINKYU; LEE, DONGHYUN; PARK, HOSUNG; KIM, JI-HWAN: "Audio Event Detection Using Deep Neural Networks", JOURNAL OF DIGITAL CONTENTS SOCIETY, 한국디지털콘텐츠학회, vol. 18, no. 1, 1 February 2017 (2017-02-01), pages 183 - 190, XP009551605, ISSN: 1598-2009, DOI: 10.9728/dcs.2017.18.1.183 *

Similar Documents

Publication Publication Date Title
US11250247B2 (en) Information processing device, information processing system, and program
US20200043287A1 (en) Real-time game tracking with a mobile device using artificial intelligence
US10070046B2 (en) Information processing device, recording medium, and information processing method
US20140286621A1 (en) Information processing apparatus, recording medium, and information processing system
CN109961039B (zh) 一种个人进球视频捕捉方法及系统
WO2017123041A1 (ko) 야구 연습 장치에 이용되는 센싱장치 및 센싱방법과, 이를 이용한 야구 연습 장치 및 이의 제어방법
JP6354461B2 (ja) フィードバック提供方法、システム、および解析装置
CN111444890A (zh) 一种基于机器学习的体育数据分析系统和方法
WO2022050792A1 (ko) 테니스 자율훈련 시스템
KR102239134B1 (ko) 드론에 부착된 vr 카메라를 이용하여 촬영한 운동 경기 영상을 제공하는 방송 시스템
WO2024075958A1 (ko) 인공지능을 이용한 사용자 수련 수준에 따른 태권도 겨루기 평가 방법
WO2023243754A1 (ko) 지정된 모션이 캡쳐된 시점을 추출하는 전자 장치 및 방법
US11514704B2 (en) Method and apparatus of game status determination
WO2016208976A1 (ko) 심판 기능이 포함된 스크린 야구 시뮬레이션 시스템 및 그 제공 방법
WO2021162305A1 (ko) 스포츠 동영상 기반 플랫폼 서비스를 제공하는 서버의 동작 방법
WO2020039473A1 (ja) 画像管理システム、画像管理方法、プログラム、及び画像管理装置
JP2002027315A (ja) 動き検出装置及び動き検出方法
US20230285832A1 (en) Automatic ball machine apparatus utilizing player identification and player tracking
WO2023013809A1 (ko) 스포츠 활동분류 학습장치의 제어방법, 이를 수행하기 위한 기록매체 및 장치
WO2022086202A1 (ko) 스포츠 중계를 위한 영상을 결정하는 장치, 방법 및 명령을 기록한 기록 매체
JP2002024833A (ja) エンタテインメントシステム、エンタテインメント装置及び情報処理方法
WO2023214602A1 (ko) 훈련된 신경망에 기반한 피격 반응 생성 방법 및 컴퓨터 판독가능 저장 매체
CN112057833A (zh) 一种羽毛球正手高远球挥拍动作识别方法
US20190388730A1 (en) Swing analysis device, swing analysis method, and swing analysis system
US20220134211A1 (en) Method and system for optimizing collection of data to detect an occurance in a live event

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22946960

Country of ref document: EP

Kind code of ref document: A1