WO2021235846A1 - 비디오 컨텐츠로부터 음악 데이터를 검출하는 장치 및 그의 제어방법 - Google Patents

비디오 컨텐츠로부터 음악 데이터를 검출하는 장치 및 그의 제어방법 Download PDF

Info

Publication number
WO2021235846A1
WO2021235846A1 PCT/KR2021/006244 KR2021006244W WO2021235846A1 WO 2021235846 A1 WO2021235846 A1 WO 2021235846A1 KR 2021006244 W KR2021006244 W KR 2021006244W WO 2021235846 A1 WO2021235846 A1 WO 2021235846A1
Authority
WO
WIPO (PCT)
Prior art keywords
music data
data
audio stream
music
detected
Prior art date
Application number
PCT/KR2021/006244
Other languages
English (en)
French (fr)
Inventor
한윤창
이수빈
박정수
정일영
이돈문
임현기
Original Assignee
주식회사 코클리어닷에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코클리어닷에이아이 filed Critical 주식회사 코클리어닷에이아이
Priority to EP21809047.0A priority Critical patent/EP4156701A4/en
Priority to US17/925,682 priority patent/US20230217074A1/en
Priority to JP2022570731A priority patent/JP2023530831A/ja
Priority to CN202180036982.8A priority patent/CN115735360A/zh
Publication of WO2021235846A1 publication Critical patent/WO2021235846A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4627Rights management associated to the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • H04N21/8113Monomedia components thereof involving special audio data, e.g. different tracks for different languages comprising music, e.g. song in MP3 format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music

Definitions

  • the present invention relates to a method of processing audio data in which music and voice are mixed.
  • the sound source separation technology divides an audio stream composed of various sounds into a plurality of audio data according to a specific criterion.
  • the sound source separation technology may be used to extract only a singer's voice from stereo music, or to separate two or more audio signals recorded with one microphone, respectively.
  • it can be used for noise reduction of vehicles, mobile phones, and the like.
  • the technical problem of the present invention is to determine the existence of music data using an artificial intelligence model from an arbitrary audio stream that does not include a separate label, a tag indicating the classification of audio data, or log information. It is to provide a data processing apparatus capable of performing and a method for controlling the same.
  • the technical object of the present invention is to provide a data processing apparatus capable of detecting music data from an original file of video content composed of an audio stream and a video stream and removing the detected music data from the original file, and a method for controlling the same.
  • Another object of the present invention is to provide a data processing apparatus capable of detecting the presence or absence of music data in an audio stream and a time domain in which the music data exists in an audio stream using an artificial intelligence model, and a method for controlling the same.
  • Another object of the present invention is to provide a data processing apparatus capable of determining whether music data corresponding to a work is included in an audio stream and a control method thereof.
  • the present invention comprises the steps of receiving video content including a video stream and an audio stream; detecting music data from the audio stream; and filtering the audio stream so that the music data detected from the audio stream is removed.
  • music data included in the video content can be detected without the user directly scanning the video content, it is possible to improve the user's convenience in editing the video content.
  • the data processing apparatus since the data processing apparatus deletes or substitutes music data corresponding to a work included in the input video content, the convenience of the owner or distributor of the video content can be improved.
  • FIG. 1 is a conceptual diagram related to a data processing method according to the present invention.
  • FIG. 2 is a block diagram showing the components of a data processing apparatus according to the present invention.
  • FIG. 3 is a flowchart illustrating an embodiment of a data processing method according to the present invention.
  • FIG. 4 is a flowchart illustrating an embodiment of a data processing method according to the present invention.
  • the video content 1 is defined as a moving picture file including an audio stream 2 and a video stream 3 .
  • the audio stream may consist of music data and/or non-music data.
  • music refers to rhythm (e.g., tempo, meter, and articulation), pitch (e.g., melody and harmony), dynamics (e.g., of sounds or notes). volume) and the like and may refer to any type of sound that may include sounds of musical instruments, voices, etc.
  • work herein may refer to a unique or unique musical work or composition, and such a musical work or composition in sound or audio form, such as a song, tune, etc. It may also include creations or reproductions of water.
  • audio stream may refer to a sequence of one or more electrical signals or data representing one or more portions of a sound stream, which may include a plurality of pieces of music, environmental sounds, speech, noise, etc. .
  • the data processing apparatus 100 may scan an audio stream included in video content to determine whether music data is included in the audio stream.
  • the data processing apparatus 100 may determine whether music data is included in the audio stream by using an external server or an artificial intelligence model mounted on the data processing apparatus 100 .
  • the artificial intelligence model may be composed of an artificial neural network that performs deep learning or machine learning.
  • the data processing apparatus 100 of the present invention includes an input unit 110 , an output unit 120 , a memory 130 , a communication unit 140 , a control unit 180 , and a power supply unit 190 .
  • the data processing apparatus 100 of the present invention includes an input unit 110 , an output unit 120 , a memory 130 , a communication unit 140 , a control unit 180 , and a power supply unit 190 .
  • the communication unit 140 is between the data processing apparatus 100 and the wireless communication system, between the data processing apparatus 100 and another data processing apparatus 100 , or the data processing apparatus 100 . It may include one or more modules that enable wireless communication between the and an external server. In addition, the communication unit 140 may include one or more modules for connecting the data processing apparatus 100 to one or more networks.
  • the input unit 110 includes a camera or an image input unit for inputting an image signal, a microphone or an audio input unit for inputting an audio signal, and a user input unit (eg, a touch key) for receiving information from a user. , a push key (mechanical key, etc.).
  • a user input unit eg, a touch key
  • the voice data or image data collected by the input unit 110 may be analyzed and processed as a user's control command.
  • the output unit 120 is for generating an output related to visual, auditory or tactile sense, and may include at least one of a display unit, a sound output unit, a haptip module, and an optical output unit.
  • the display unit may implement a touch screen by forming a layer structure with the touch sensor or being integrally formed. Such a touch screen may function as a user input device providing an input interface between the data processing device 100 and a user, and may provide an output interface between the data processing device 100 and a user.
  • the memory 130 stores data supporting various functions of the data processing apparatus 100 .
  • the memory 130 may store a plurality of application programs (or applications) driven in the data processing apparatus 100 , data for the operation of the data processing apparatus 100 , and commands. At least some of these application programs may be downloaded from an external server through wireless communication. In addition, at least some of these applications may exist on the data processing apparatus 100 from the time of shipment for basic functions (eg, incoming calls, outgoing functions, message reception, and outgoing functions) of the data processing apparatus 100 . have. Meanwhile, the application program may be stored in the memory 130 , installed on the data processing device 100 , and driven to perform an operation (or function) of the electronic device control device by the controller 180 .
  • the controller 180 In addition to the operation related to the application program, the controller 180 generally controls the overall operation of the data processing apparatus 100 .
  • the controller 180 may provide or process appropriate information or functions to the user by processing signals, data, information, etc. input or output through the above-described components or by driving an application program stored in the memory 130 .
  • controller 180 may control at least some of the components discussed with reference to FIG. 2 in order to drive an application program stored in the memory 130 . Furthermore, in order to drive the application program, the controller 180 may operate at least two or more of the components included in the data processing apparatus 100 in combination with each other.
  • the power supply unit 190 receives external power and internal power under the control of the control unit 180 to supply power to each component included in the data processing apparatus 100 .
  • the power supply 190 includes a battery, and the battery may be a built-in battery or a replaceable battery.
  • At least some of the respective components may operate in cooperation with each other to implement the operation, control, or control method of the electronic device control apparatus according to various embodiments to be described below.
  • the operation, control, or control method of the electronic device control device may be implemented on the electronic device control device by driving at least one application program stored in the memory 130 .
  • the data processing apparatus 100 may be implemented in the form of a separate terminal. That is, it may be a terminal such as a desktop computer or a digital TV, and may be implemented in the form of a mobile terminal such as a mobile phone, a notebook computer, a PDA, a tablet PC, a notebook computer, and a wearable device.
  • a terminal such as a desktop computer or a digital TV
  • a mobile terminal such as a mobile phone, a notebook computer, a PDA, a tablet PC, a notebook computer, and a wearable device.
  • the input unit 110 may receive information related to video content including at least one of an audio stream and a video stream ( S300 ).
  • the input unit 110 may receive information related to an audio stream.
  • the communication unit 140 may receive information related to video content including at least one of an audio stream and a video stream from an external server or an external terminal.
  • the video content or the audio stream may be a file directly uploaded by a user or may be received from an external server.
  • the controller 180 may detect music data from an audio stream included in the input video content (S301). As shown in FIG. 4 , the step of detecting the music data ( S301 ) includes the steps of dividing an audio stream into music data and voice data ( S311 ), and detecting a section in which music data exists from the audio stream. It may include a process (S321).
  • the process of separating the audio stream into music data and voice data may be performed by a pre-trained artificial intelligence model. That is, the controller 180 may divide the input audio stream into music data and voice data using the artificial intelligence model.
  • the artificial intelligence model may receive an audio stream and output a probability corresponding to music data and a probability corresponding to voice data for each preset unit section of the input audio stream. That is, the controller 180 may determine, for each unit section of the input audio stream, whether the audio of the unit section corresponds to music data or voice data by using the output of the artificial intelligence model.
  • the controller 180 may variably set the unit section based on the physical characteristics of the audio stream or the physical characteristics of the video content.
  • the controller 180 may variably set the unit section based on the user input applied to the input unit 110 .
  • the user input may be related to at least one of accuracy, performance, and processing speed.
  • the artificial intelligence model may output a variable energy distribution map according to a sequence of an input audio stream.
  • the energy distribution may be related to a probability that a part of the audio stream is music and/or a probability that the audio stream is voice.
  • the controller 180 divides the input audio stream into music data and non-music data using the first AI model, and divides the divided non-music data into voice data using the third AI model. It can be divided into data and non-voice data.
  • the non-voice data means audio data that does not correspond to a human voice, such as a knock sound or an animal cry.
  • the first artificial intelligence model may be an artificial neural network for detecting whether there is music
  • the third artificial intelligence model may be an artificial neural network for determining what kind of environmental sound the input audio is.
  • the first and third artificial intelligence models may be integrated and configured.
  • the integrated artificial intelligence model outputs probability values corresponding to a plurality of classes or labels including music with respect to the audio input. can do.
  • controller 180 may determine whether music is included in the target section while sequentially shifting the target section.
  • the length of the target section may be set to 1 second.
  • the controller 180 may determine whether music is included in the target section while shifting the target section by 0.5 seconds so that the current section overlaps with the previous section.
  • the detection process ( S321 ) is different in that a section in which voice and music exist simultaneously can be detected. Also, the controller 180 may perform the detection process ( S321 ) using a second AI model different from the first AI model used to perform the separation process ( S311 ).
  • the first artificial intelligence model used in the separation process S311 may be configured to perform learning using training data labeled with music data and voice data.
  • the second artificial intelligence model used in the detection process ( S321 ) may be configured to perform learning using data including music and training data labeled with data not including music. More specifically, the second artificial intelligence model used in the detection process (S321) consists of data having a specific weight including music greater than or equal to a reference value, data including music having a weight less than or equal to the reference value, and data not including music at all. It may be configured to perform learning using labeled training data.
  • the controller 180 may detect music data from the audio stream by using at least one of a result of the separation process S311 and a result of the detection process S321 . Meanwhile, when the accuracy of the separation process ( S311 ) is equal to or greater than the reference value, the controller 180 may omit the detection process ( S321 ).
  • the controller 180 may perform the detection process ( S321 ) only on a portion of the input audio stream that is divided into music through the separation process ( S311 ).
  • the controller 180 may determine a target to perform the detection process ( S321 ) based on the probability for each unit section output through the separation process ( S311 ) among the input audio streams.
  • the controller 180 may perform the detection process ( S321 ) on the entire input audio stream, similar to the separation process ( S311 ).
  • the controller 180 detects whether music data is music data for each unit section of the audio stream using at least one of the separation process S311 and the detection process S321, and then, based on the section continuity of the detection result, the audio stream can be detected as a part of the music data.
  • the controller 180 may detect a variation pattern of the detected music data and divide one piece of music data into a plurality of pieces of music data based on the detected variation pattern. For example, when different pieces of music are continuously streamed and detected as one piece of music data, the controller 180 may separate the music data into a plurality of pieces by monitoring a variation of the music data.
  • the controller 180 may perform filtering on the audio stream so that the detected music data is removed from the audio stream (S302).
  • the controller 180 may delete a portion of the audio stream detected as music data.
  • the controller 180 may change a portion of the audio stream detected as music data into alternative music data different from the music data.
  • the controller 180 may determine whether the detected music data corresponds to a work, and perform the filtering step S302 according to the determination result. That is, even when music data is detected, if the detected music data does not correspond to a work, the controller 180 may exclude it from the filtering target. When a plurality of different pieces of music data are detected from the audio stream, the controller 180 may determine whether each piece of music data is a work of art.
  • the memory of the data processing apparatus 100 may store a work database composed of information related to the work. That is, the controller 180 may determine whether the detected music data is a work by using the work database previously stored in the memory. In addition, when it is determined that the detected music data is a work, the controller 180 may filter the audio stream so that the music data is removed.
  • the controller 180 may determine alternative music data in consideration of the characteristics of the detected music data.
  • the characteristic may be related to at least one of a genre, an atmosphere, a composition, a tempo, a volume, and a sound source length.
  • the controller 180 may analyze information related to a genre and/or atmosphere of the detected music data using the fourth artificial intelligence model, and may select alternative music data based on the analysis result.
  • the controller 180 may detect information related to at least one of a genre and an atmosphere of the detected music data by using the fourth artificial intelligence model designed to analyze the genre or atmosphere of the music.
  • the fourth artificial intelligence model may be configured to perform learning by the labeled training data of what genre or atmosphere the music is.
  • the information obtained by the fourth artificial intelligence model may be configured in the form of a feature vector.
  • the controller 180 may calculate a similarity between the detected music data and the alternative music candidate group by comparing the feature vector of the alternative music candidate group with the feature vector of the detected music data. Also, the controller 180 may select any one of a plurality of alternative music data based on the calculated similarity and change the detected music data into the selected alternative music data.
  • the controller 180 may convert the alternative music data based on the detected volume size of the music data. Specifically, the controller 180 may calculate an energy level for each reset unit section with respect to the detected music data. For example, the controller 180 may set the second unit section as a section shorter than the first unit section applied in the separation process S311, and calculate the energy level of the music data detected for each second unit section. have. In one example, the second unit period may be 0.2 seconds.
  • the controller 180 may apply a low-pass filter defined by a vector composed of the calculated energy level to the alternative music data and change the existing music data to the application result.
  • the controller 180 may analyze a portion of a video stream corresponding to the detected music data, and may determine alternative music data based on the analysis result.
  • the controller 180 may recognize at least one object by performing image recognition on a portion of the video stream, and may determine alternative music data based on characteristics of the recognized object.
  • the characteristic of the object may include at least one of the number of objects, a label for each object, and a moving speed of the object.
  • controller 180 may determine the alternative music data by analyzing the color of each region of the part and the degree of color change.
  • the controller 180 may output the filtered audio stream ( S303 ).
  • the data processing apparatus 100 may output video content including the filtered audio stream in a file format stored in a memory or may directly output the video content to a display. Meanwhile, the data processing apparatus 100 may transmit the filtered audio stream to an external server or an external terminal.
  • the data processing apparatus 100 may be mounted on a server of a video streaming platform.
  • the data processing device 100 performs a filtering step (S302) on the uploaded video content, and then filters the filtering result to the platform control device to be output on the platform. You can send the results.
  • the controller 180 may control the output unit 120 to output video content including the changed audio stream by deleting music data detected from the original audio stream.
  • the controller 180 may output information related to a section in which music data is deleted from the original audio stream together with the changed video content.
  • a text file separate from the changed video content file may be output.
  • the controller 180 may output information related to a section in which music data is deleted by using a log provided by a video platform, and control to output changed video content on the platform.
  • the controller 180 may control the output unit 120 so that the original video content is parsed based on a section in which the detected music data exists and is output as a plurality of video content.
  • music data included in the video content can be detected without the user directly scanning the video content, it is possible to improve the user's convenience in editing the video content.
  • the data processing apparatus since the data processing apparatus deletes or substitutes music data corresponding to a work included in the input video content, the convenience of the owner or distributor of the video content can be improved.
  • music data included in the video content can be detected without the user directly scanning the video content, it is possible to improve the user's convenience in editing the video content.
  • the data processing apparatus deletes or substitutes music data corresponding to the work included in the input video content, the convenience of the owner or distributor of the video content can be improved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

본 발명에 따른 데이터 처리 방법은, 비디오 스트림과 오디오 스트림을 포함하는 비디오 컨텐츠를 입력받는 단계와, 상기 오디오 스트림으로부터 음악 데이터를 검출하는 단계 및 상기 오디오 스트림에서 검출된 상기 음악 데이터가 제거되도록, 상기 오디오 스트림을 필터링하는 단계를 포함하는 것을 특징으로 한다.

Description

비디오 컨텐츠로부터 음악 데이터를 검출하는 장치 및 그의 제어방법
본 발명은 음악과 음성이 혼합된 오디오 데이터의 처리 방법에 관한 것이다.
음원 분리 기술은 다양한 소리로 구성된 오디오 스트림을 특정한 기준에 따라 복수의 오디오 데이터로 구분하는 것이다. 예를 들어, 음원 분리 기술은 스테레오 음악에서 가수의 목소리만을 추출하거나, 하나의 마이크로 녹음된 둘 이상의 오디오 신호를 각각 분리하기 위해 사용될 수 있다. 또한, 차량, 휴대폰 등의 소음 제거에도 이용될 수 있다.
최근, 음원 분리 기술에 인공 지능을 도입하는 방법들이 소개되고 있다. 대표적으로, 사전에 트레이닝 된 음성, 잡음 패턴이나 통계적인 데이터 정보를 이용하여 음성을 분리를 수행하는 방식이 있다. 이러한 방식은 급격히 변화하는 잡음 환경에서도 음성 분리가 가능할 수 있다.
한편, 비디오 컨텐츠 시장이 성장하면서, 비디오 컨텐츠에 포함된 데이터의 저작권과 관련된 문제점이 야기되고 있다. 특히, 비디오 컨텐츠에 저작권자의 허락을 받지 않은 음악이 포함되어 있는 경우, 해당 비디오 컨텐츠의 유통이 제한되는 문제가 발생함에 따라, 비디오 컨텐츠에서 저작물 데이터를 분리시키는 요구가 증가하고 있다.
즉, 비디오 컨텐츠에 저작물 데이터가 포함되어 있는지 여부를 확인하거나, 저작물 데이터를 원본 비디오 컨텐츠로부터 분리 또는 제거하거나, 해당 저작물 데이터를 라이센스-프리 데이터로 변경하는 작업이 필요한 실정이다.
하지만 종래의 영상 편집 과정에 따르면, 위와 같은 작업들을 편집자가 직접 비디오를 플레이하면서 확인해야하는 번거로움이 있다. 최근 동영상 플랫폼에서 처리되는 데이터의 양을 고려할 때, 사용자가 수동으로 저작물 데이터를 검열하는 종래의 방법으로는 충분한 양의 비디오 컨텐츠를 검열하기 어려운 문제점이 발생한다.
본 발명의 기술적 과제는, 임의의 오디오 스트림으로부터 음악 데이터를 추출할 수 있는 데이터 처리장치 및 그의 제어방법을 제공하는 것이다.
또한, 본 발명의 기술적 과제는, 별도의 레이블(label)이나, 오디오 데이터의 구분을 나타내는 태그 또는 로그 정보를 포함하지 않는 임의의 오디오 스트림으로부터, 인공지능 모델을 이용하여 음악 데이터의 존재 여부를 판단할 수 있는 데이터 처리장치 및 그의 제어방법을 제공하는 것이다.
또한, 본 발명의 기술적 과제는, 오디오 스트림과 비디오 스트림으로 구성되는 비디오 컨텐츠의 원본 파일로부터, 음악 데이터를 검출하고, 검출된 음악 데이터를 원본 파일로부터 제거할 수 있는 데이터 처리장치 및 그의 제어방법을 제공하는 것이다.
또한, 본 발명의 기술적 과제는, 인공지능 모델을 이용하여 오디오 스트림 내에 음악 데이터의 존재 여부와, 음악 데이터가 존재하는 시간 영역을 검출할 수 있는 데이터 처리장치 및 그의 제어방법을 제공하는 것이다.
또한, 본 발명의 기술적 과제는, 오디오 스트림 내에 저작물에 해당하는 음악 데이터가 포함되어 있는지 여부를 판단할 수 있는 데이터 처리장치 및 그의 제어방법을 제공하는 것이다.
상기한 목적을 달성하기 위하여, 본 발명은 비디오 스트림과 오디오 스트림을 포함하는 비디오 컨텐츠를 입력받는 단계; 상기 오디오 스트림으로부터 음악 데이터를 검출하는 단계; 및 상기 오디오 스트림에서 검출된 상기 음악 데이터가 제거되도록, 상기 오디오 스트림을 필터링하는 단계;를 포함하는 데이터 처리 방법을 제공한다.
본 발명에 따르면, 사용자가 비디오 컨텐츠를 직접 스캔하지 않아도, 비디오 컨텐츠 내에 포함된 음악 데이터를 검출할 수 있으므로, 비디오 컨텐츠 편집을 수행하는 사용자의 편의를 향상시킬 수 있는 장점이 있다.
또한, 방대한 양의 비디오 컨텐츠에 대해 빠른 시간 내에 음악 데이터를 검출할 수 있으므로, 영상 편집에 소요되는 비용을 획기적으로 감소시킬 수 있다.
아울러, 본 발명에 따르면, 데이터 처리장치가 입력된 비디오 컨텐츠에 포함된 저작물에 대응되는 음악 데이터를 삭제하거나, 대체음악으로 치환하므로, 비디오 컨텐츠의 소유자 또는 유통자의 편의가 향상될 수 있다.
도 1은 본 발명에 따른 데이터 처리 방법과 관련된 개념도이다.
도 2는 본 발명에 따른 데이터 처리장치의 구성요소를 나타낸 블록도이다.
도 3은 본 발명에 따른 데이터 처리 방법의 일 실시예를 나타낸 흐름도이다.
도 4는 본 발명에 따른 데이터 처리 방법의 일 실시예를 나타낸 흐름도이다.
비디오 스트림과 오디오 스트림을 포함하는 비디오 컨텐츠를 입력받는 단계;
상기 오디오 스트림으로부터 음악 데이터를 검출하는 단계; 및
상기 오디오 스트림에서 검출된 상기 음악 데이터가 제거되도록, 상기 오디오 스트림을 필터링하는 단계;를 포함하는 데이터 처리 방법.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 명세서에 개시된 기술의 사상을 한정하려는 의도가 아님을 유의해야 한다.
먼저, 도 1에는 본 발명에 따른 데이터 처리 방법과 관련된 개념도가 도시된다. 이하에서 비디오 컨텐츠(1)는 오디오 스트림(2)과 비디오 스트림(3)을 포함하는 동영상 파일로 정의된다. 또한, 오디오 스트림은 음악 데이터 또는/및 비음악 데이터로 구성될 수 있다.
상술한 "음악"이라는 용어는, 리듬 (예컨대, 템포, 박자 (meter), 및 조음 (articulation)), 음높이 (pitch) (예컨대, 멜로디와 하모니), 셈여림 (dynamics) (예컨대, 사운드 또는 음표의 볼륨) 등 중 하나 이상의 엘리먼트들에 의해 특징화될 수도 있고 악기들의 사운드들, 음성들 등을 포함할 수도 있는 임의의 유형의 사운드를 지칭할 수도 있다. 덧붙여서, 본원에서의 "저작물"이란 용어가 고유한 또는 독특한 음악 저작물 (musical work) 또는 작곡물 (composition) 을 지칭할 수 있고 노래, 튠 (tune) 등과 같은 사운드 또는 오디오 형태로 이러한 음악 저작물 또는 작곡물의 창작물 또는 재현물을 포함할 수도 있다. 게다가, "오디오 스트림"이란 용어는 복수의 음악 작품들, 환경 사운드들, 스피치, 잡음 등을 포함할 수도 있는 사운드 스트림의 하나 이상의 부분들을 나타내는 하나 이상의 전기적 신호들 또는 데이터의 시퀀스를 지칭할 수도 있다.
도 1을 참조하면, 본 발명에 따른 데이터 처리장치(100)는, 비디오 컨텐츠에 포함된 오디오 스트림을 스캔하여, 상기 오디오 스트림에 음악 데이터가 포함되어있는지 여부를 판별할 수 있다.
구체적으로, 데이터 처리장치(100)는 외부서버 또는 데이터 처리장치(100)에 탑재된 인공지능 모델을 이용하여, 오디오 스트림에 음악 데이터가 포함되어 있는지 여부를 판별할 수 있다. 이때, 인공지능 모델은 딥 러닝 또는 머신 러닝을 수행하는 인공신경망으로 구성될 수 있다.
도 2는 본 발명의 일 실시예에 따른 데이터 처리장치를 나타내는 블록도이다. 도 2를 참조하면, 본 발명의 데이터 처리장치(100)는, 입력부(110), 출력부(120), 메모리(130), 통신부(140), 제어부(180) 및 전원공급부(190)로 구성될 수 있다.
보다 구체적으로, 상기 구성요소들 중 통신부(140)는, 데이터 처리장치(100)와 무선 통신 시스템 사이, 데이터 처리장치(100)와 다른 데이터 처리장치(100) 사이, 또는 데이터 처리장치(100)와 외부서버 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 또한, 상기 통신부(140)는, 데이터 처리장치(100)를 하나 이상의 네트워크에 연결하는 하나 이상의 모듈을 포함할 수 있다.
입력부(110)는, 영상 신호 입력을 위한 카메라 또는 영상 입력부, 오디오 신호 입력을 위한 마이크로폰(microphone), 또는 오디오 입력부, 사용자로부터 정보를 입력받기 위한 사용자 입력부(예를 들어, 터치키(touch key), 푸시키(mechanical key) 등)를 포함할 수 있다. 입력부(110)에서 수집한 음성 데이터나 이미지 데이터는 분석되어 사용자의 제어명령으로 처리될 수 있다.
출력부(120)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 디스플레이부, 음향 출력부, 햅팁 모듈, 광 출력부 중 적어도 하나를 포함할 수 있다. 디스플레이부는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 데이터 처리장치(100)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력장치로써 기능함과 동시에, 데이터 처리장치(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.
메모리(130)는 데이터 처리장치(100)의 다양한 기능을 지원하는 데이터를 저장한다. 메모리(130)는 데이터 처리장치(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 데이터 처리장치(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다. 또한 이러한 응용 프로그램 중 적어도 일부는, 데이터 처리장치(100)의 기본적인 기능(예를 들어, 전화 착신, 발신 기능, 메시지 수신, 발신 기능)을 위하여 출고 당시부터 데이터 처리장치(100)상에 존재할 수 있다. 한편, 응용 프로그램은, 메모리(130)에 저장되고, 데이터 처리장치(100) 상에 설치되어, 제어부(180)에 의하여 상기 전자기기 제어장치의 동작(또는 기능)을 수행하도록 구동될 수 있다.
제어부(180)는 상기 응용 프로그램과 관련된 동작 외에도, 통상적으로 데이터 처리장치(100)의 전반적인 동작을 제어한다. 제어부(180)는 위에서 살펴본 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 메모리(130)에 저장된 응용 프로그램을 구동함으로써, 사용자에게 적절한 정보 또는 기능을 제공 또는 처리할 수 있다.
또한, 제어부(180)는 메모리(130)에 저장된 응용 프로그램을 구동하기 위하여, 도 2과 함께 살펴본 구성요소들 중 적어도 일부를 제어할 수 있다. 나아가, 제어부(180)는 상기 응용 프로그램의 구동을 위하여, 데이터 처리장치(100)에 포함된 구성요소들 중 적어도 둘 이상을 서로 조합하여 동작시킬 수 있다.
전원공급부(190)는 제어부(180)의 제어 하에서, 외부의 전원, 내부의 전원을 인가받아 데이터 처리장치(100)에 포함된 각 구성요소들에 전원을 공급한다. 이러한 전원공급부(190)는 배터리를 포함하며, 상기 배터리는 내장형 배터리 또는 교체가능한 형태의 배터리가 될 수 있다.
상기 각 구성요소들 중 적어도 일부는, 이하에서 설명되는 다양한 실시 예들에 따른 전자기기 제어장치의 동작, 제어, 또는 제어방법을 구현하기 위하여 서로 협력하여 동작할 수 있다. 또한, 상기 전자기기 제어장치의 동작, 제어, 또는 제어방법은 상기 메모리(130)에 저장된 적어도 하나의 응용 프로그램의 구동에 의하여 전자기기 제어장치 상에서 구현될 수 있다.
일 예에서, 데이터 처리장치(100)는 별도의 단말기 형태로 구현될 수도 있다. 즉, 데스트탑 컴퓨터, 디지털 TV 등의 단말기 일 수도 있으며, 이동 가능한 휴대폰, 노트북, PDA, 태블릿 PC, 노트북, 웨어러블 디바이스 등의 이동 단말기 형태로 구현될 수도 있다.
이하 도 3 및 도 4와 관련하여, 본 발명에서 제안하는 인공지능 기반의 음악 데이터 필터링 방법이 설명된다.
먼저, 입력부(110)는 오디오 스트림 및 비디오 스트림 중 적어도 하나를 포함하는 비디오 컨텐츠와 관련된 정보를 입력 받을 수 있다(S300). 입력부(110)는 오디오 스트림과 관련된 정보를 입력 받을 수도 있다.
또한, 통신부(140)는 오디오 스트림 및 비디오 스트림 중 적어도 하나를 포함하는 비디오 컨텐츠와 관련된 정보를 외부 서버 또는 외부 단말기로부터 수신할 수 있다.
즉, 비디오 컨텐츠 또는 오디오 스트림은, 사용자에 의해 직접 업로드된 파일일 수도 있고, 외부 서버로부터 수신한 것일 수도 있다.
제어부(180)는 입력된 비디오 컨텐츠에 포함된 오디오 스트림으로부터 음악 데이터를 검출할 수 있다(S301). 도 4에 도시된 바와 같이, 상기 음악 데이터를 검출하는 단계(S301)는, 오디오 스트림을 음악 데이터와 음성 데이터로 분리하는 과정(S311)과, 상기 오디오 스트림으로부터 음악 데이터가 존재하는 구간을 검출하는 과정(S321)을 포함할 수 있다.
구체적으로, 오디오 스트림을 음악 데이터와 음성 데이터로 분리하는 과정(S311)은, 미리 학습된 인공지능 모델에 의해 수행될 수 있다. 즉, 제어부(180)는 인공지능 모델을 이용하여, 입력된 오디오 스트림을 음악 데이터와 음성 데이터로 구분할 수 있다.
예를 들어 상기 인공지능 모델은, 오디오 스트림을 입력 받으며, 입력된 오디오 스트림의 미리 설정된 단위 구간마다 음악 데이터에 해당될 확률과, 음성 데이터에 해당될 확률을 각각 출력할 수 있다. 즉, 제어부(180)는 인공지능 모델의 출력을 이용하여, 입력된 오디오 스트림의 단위 구간마다, 상기 단위 구간의 오디오가 음악 데이터 또는 음성 데이터에 해당하는지 여부를 판별할 수 있다.
이때, 제어부(180)는 오디오 스트림의 물리적 특성이나, 비디오 컨텐츠의 물리적 특성에 근거하여, 상기 단위 구간을 가변적으로 설정할 수 있다. 아울러, 제어부(180)는 입력부(110)에 인가된 사용자 입력에 근거하여, 단위 구간을 가변적으로 설정할 수도 있다. 예를 들어, 상기 사용자 입력은 정확도, 성능 및 처리 속도 중 적어도 하나와 관련된 것일 수 있다.
다른 예에서, 상기 인공지능 모델은 입력된 오디오 스트림의 시퀀스에 따라 가변적인 에너지 분포도를 출력할 수도 있다. 이때, 에너지 분포도는 오디오 스트림의 일부분이 음악일 확률 및/또는 음성일 확률과 관련될 수 있다.
다른 실시예로서, 제어부(180)는 제1 인공지능 모델을 이용하여, 입력된 오디오 스트림을 음악 데이터와 비음악 데이터로 구분하고, 상기 구분된 비음악 데이터를 제3 인공지능 모델을 이용하여 음성 데이터와 비음성 데이터로 구분할 수 있다.
이때, 비음성 데이터란 노크소리, 동물 울음소리와 같이 인간의 음성에 해당하지 않는 오디오 데이터를 의미한다. 아울러, 제1 인공지능 모델은 음악 여부를 검출하기 위한 인공 신경망이고, 제3 인공지능 모델은 입력된 오디오가 어떤 환경음인지 판별하기 위한 인공 신경망일 수 있다.
물론, 필요에 따라서 제1 및 제3 인공지능 모델이 통합되어 구성될 수도 있으며, 이 경우 통합된 인공지능 모델은, 오디오 입력에 대해 음악이 포함된 복수의 클래스 또는 레이블에 대응되는 확률 값을 출력할 수 있다.
다음으로, 제어부(180)는 대상 구간을 순차적으로 시프트(shift)시키면서, 상기 대상 구간에 음악이 포함되어 있는지 여부를 판별할 수 있다.
예를 들어, 상기 대상 구간의 길이는 1초로 설정될 수 있다. 또한, 제어부(180)는 현재 구간과 이전 구간이 중첩되도록 대상 구간을 0.5초씩 시프트시키면서, 대상 구간에 음악이 포함되어 있는지 여부를 판별할 수 있다.
상술한 분리 과정(S311)과 비교하여, 검출 과정(S321)은, 음성과 음악이 동시에 존재하는 구간을 감지할 수 있는 점에서 차이가 있다. 또한, 제어부(180)는 분리 과정(S311)을 수행하는데 이용되는 제1 인공지능 모델과 상이한 제2 인공지능 모델을 이용하여, 검출 과정(S321)을 수행할 수 있다.
예를 들어, 분리 과정(S311)에 이용되는 제1 인공지능 모델은, 음악 데이터와 음성 데이터로 레이블링(labeling)된 트레이닝 데이터를 이용하여 학습을 수행하도록 구성될 수 있다.
이와 달리, 검출 과정(S321)에 이용되는 제2 인공지능 모델은, 음악이 포함된 데이터와, 음악이 포함되지 않은 데이터로 레이블링된 트레이닝 데이터를 이용하여 학습을 수행하도록 구성될 수 있다. 보다 구체적으로, 검출 과정(S321)에 이용되는 제2 인공지능 모델은, 음악이 포함된 비중이 기준치 이상인 데이터와, 음악이 포함된 비중이 기준치 이하인 데이터와, 음악이 전혀 포함되어 있지 않은 데이터로 레이블링된 트레이닝 데이터를 이용하여 학습을 수행하도록 구성될 수 있다.
상술한 바와 같이, 제어부(180)는 분리 과정(S311)의 수행 결과 및 검출 과정(S321)의 수행 결과 중 적어도 하나를 이용하여, 오디오 스트림으로부터 음악 데이터를 검출할 수 있다. 한편, 제어부(180)는 분리 과정(S311)의 정확도가 기준치 이상인 경우, 검출 과정(S321)을 생략할 수도 있다.
일 실시예에서, 제어부(180)는 입력된 오디오 스트림 중, 분리 과정(S311)을 통해 음악으로 구분된 일부분에 대해서만 상기 검출 과정(S321)을 수행할 수도 있다.
*다른 실시예에서, 제어부(180)는 입력된 오디오 스트림 중, 분리 과정(S311)을 통해 출력된 단위 구간 별 확률에 근거하여, 상기 검출 과정(S321)을 수행할 대상을 결정할 수 있다.
다른 실시예에서, 제어부(180)는 분리 과정(S311)과 마찬가지로, 입력된 오디오 스트림 전체에 대해 상기 검출 과정(S321)을 수행할 수도 있다.
한편, 제어부(180)는 분리과정(S311) 및 검출과정(S321) 중 적어도 하나를 이용하여 오디오 스트림의 단위구간 별로 음악 데이터인지 여부를 검출한 후, 검출결과의 구간 연속성에 근거하여, 오디오 스트림의 일부분을 음악 데이터로 검출할 수 있다.
아울러, 제어부(180)는 검출된 음악 데이터의 변주 양상을 검출하고, 검출된 변주 양상에 근거하여, 하나의 음악 데이터를 복수의 음악 데이터로 분리시킬 수도 있다. 예를 들어, 서로 다른 음악이 연속적으로 스트리밍되어 하나의 음악 데이터로 검출된 경우에, 제어부(180)는 음악 데이터의 변주 양상을 모니터링함으로써, 상기 음악 데이터를 복수 개로 분리시킬 수 있다.
상술한 바와 같이 음악 데이터가 검출(S301)되면, 제어부(180)는 상기 검출된음악 데이터가 오디오 스트림으로부터 제거되도록, 상기 오디오 스트림에 대해 필터링을 수행할 수 있다(S302).
구체적으로, 제어부(180)는 오디오 스트림 중 음악 데이터로 검출된 일부분을 삭제시킬 수 있다.
다른 예로서, 제어부(180)는 오디오 스트림 중 음악 데이터로 검출된 일부분을, 상기 음악 데이터와 다른 대체음악 데이터로 변경시킬 수 있다.
일 실시예에서, 제어부(180)는 검출된 음악 데이터가 저작물에 해당하는지 여부를 판단하고, 판단결과에 따라 상기 필터링 단계(S302)를 수행할 수 있다. 즉, 제어부(180)는 음악 데이터가 검출되더라도, 상기 검출된 음악 데이터가 저작물에 해당하지 않으면, 필터링 대상에서 제외할 수 있다. 오디오 스트림으로부터 복수의 서로 다른 음악 데이터가 검출되는 경우에, 제어부(180)는 각각의 음악 데이터에 대해 저작물 여부를 판단할 수 있다.
필터링 단계(S302)가 수행됨에 있어서 저작물인지 여부를 고려하기 위해, 데이터 처리장치(100)의 메모리는 저작물과 관련된 정보로 구성되는 저작물 데이터베이스를 저장할 수 있다. 즉, 제어부(180)는 메모리에 미리 저장된 저작물 데이터베이스를 이용하여, 검출된 상기 음악 데이터가 저작물인지 여부를 판단할 수 있다. 아울러, 제어부(180)는 검출된 음악 데이터가 저작물인 것으로 판단되면, 상기 음악 데이터가 제거되도록 오디오 스트림을 필터링할 수 있다.
한편, 제어부(180)는 검출된 음악 데이터의 특성을 고려하여, 대체음악 데이터를 결정할 수 있다. 예를 들어, 상기 특성은, 장르, 분위기, 조성, 템포, 볼륨 및 음원 길이 중 적어도 하나와 관련될 수 있다.
일 실시예에서, 제어부(180)는 제4 인공지능 모델을 이용하여, 검출된 음악 데이터의 장르 및/또는 분위기와 관련된 정보를 분석하고, 분석결과에 근거하여 대체음악 데이터를 선택할 수 있다.
즉, 제어부(180)는 음악의 장르나, 분위기를 분석하기 위해 설계된 제4 인공지능 모델을 이용하여, 검출된 음악 데이터의 장르 및 분위기 중 적어도 하나와 관련된 정보를 검출할 수 있다. 특히, 제4 인공지능 모델은 음악이 어떤 장르인지, 또는 어떤 분위기인지 레이블링된 트레이닝 데이터에 의해 학습을 수행하도록 구성될 수 있다. 이때, 제4 인공지능 모델에 의해 획득된 정보는 피쳐 벡터(Feature vector)의 형태로 구성될 수 있다.
아울러, 제어부(180)는 대체음악 후보군의 피쳐벡터와 검출된 음악 데이터의 피쳐벡터를 비교하여, 검출된 음악 데이터와 대체음악 후보군 사이의 유사도를 산출할 수 있다. 또한, 제어부(180)는 산출된 유사도에 근거하여, 복수의 대체음악 데이터 중 어느 하나를 선택하여, 검출된 음악데이터를 선택된 대체음악 데이터로 변경시킬 수 있다.
다른 실시예에서, 제어부(180)는 검출된 음악 데이터의 볼륨 크기에 근거하여, 대체음악 데이터에 대한 변환을 수행할 수 있다. 구체적으로, 제어부(180)는 검출된 음악 데이터에 대해, 재설정된 단위구간 별로 에너지 레벨을 산출할 수 있다. 예를 들어, 제어부(180)는 분리과정(S311)에서 적용된 제1 단위구간보다 더 짧은 구간으로 제2 단위구간을 설정하고, 상기 제2 단위구간마다 검출된 음악 데이터의 에너지 레벨을 산출할 수 있다. 일 예에서, 제2 단위구간은 0.2초일 수 있다.
제어부(180)는 산출된 에너지 레벨로 구성된 벡터에 의해 정의되는 로우패스필터를 대체음악 데이터에 적용하고, 기존 음악 데이터를 상기 적용결과로 변경시킬 수 있다.
한편, 제어부(180)는 검출된 음악 데이터와 대응되는 비디오 스트림의 일부분을 분석하고, 분석결과에 근거하여 대체음악 데이터를 결정할 수도 있다.
구체적으로, 제어부(180)는 상기 비디오 스트림의 일부분에 대해 영상 인식을 수행하여, 적어도 하나의 객체를 인식할 수 있으며, 인식된 객체의 특성에 근거하여 대체음악 데이터를 결정할 수 있다. 이때, 객체의 특성은, 객체의 수, 객체 별 레이블 및 객체의 이동 속도 중 적어도 하나를 포함할 수 있다.
또한, 제어부(180)는 상기 일부분의 영역 별 색상과, 색상 변화 정도를 분석하여, 대체음악 데이터를 결정할 수 있다.
아울러, 제어부(180)는 필터링 단계(S302)가 수행된 후, 필터링된 오디오 스트림을 출력할 수 있다(S303).
본 발명에 따른 데이터 처리장치(100)는 필터링된 오디오 스트림을 포함한 비디오 컨텐츠를 메모리에 저장된 파일 형식으로 출력할 수도 있고, 디스플레이에 직접 출력시킬 수도 있다. 한편, 데이터 처리장치(100)는 외부 서버 또는 외부 단말기로 필터링된 오디오 스트림을 전송할 수도 있다.
예를 들어, 본 발명에 따른 데이터 처리장치(100)는 동영상 스트리밍 플랫폼의 서버에 탑재될 수 있다. 이 경우, 사용자가 해당 플랫폼에 비디오 컨텐츠를 업로드하면, 데이터 처리장치(100)는 업로드된 비디오 컨텐츠에 대해 필터링 단계(S302)를 수행한 후, 필터링 결과가 플랫폼 상에서 출력되도독 플랫폼 제어장치로 필터링 결과를 전송할 수 있다.
다른 예에서, 제어부(180)는 원본 오디오 스트림에서 검출된 음악 데이터를 삭제하여, 변경된 오디오 스트림을 포함하는 비디오 컨텐츠가 출력되도록 출력부(120)를 제어할 수 있다. 아울러, 제어부(180)는 원본 오디오 스트림에서 음악 데이터가 삭제된 구간과 관련된 정보를 변경된 비디오 컨텐츠와 함께 출력할 수 있다.
예를 들어, 변경된 비디오 컨텐츠 파일과 별도의 텍스트 파일이 출력될 수 있다. 다른 예에서, 제어부(180)는 동영상 플랫폼에서 제공하는 로그를 이용하여, 음악 데이터가 삭제된 구간과 관련된 정보를 출력하고, 상기 플랫폼 상에서 변경된 비디오 컨텐츠가 출력되도록 제어할 수도 있다.
다른 실시예에서, 제어부(180)는 원본 비디오 컨텐츠가 검출된 음악 데이터가 존재하는 구간을 기준으로 파싱(parsing)되어, 복수의 비디오 컨텐츠로 출력되도록 출력부(120)를 제어할 수 있다.
본 발명에 따르면, 사용자가 비디오 컨텐츠를 직접 스캔하지 않아도, 비디오 컨텐츠 내에 포함된 음악 데이터를 검출할 수 있으므로, 비디오 컨텐츠 편집을 수행하는 사용자의 편의를 향상시킬 수 있는 장점이 있다.
또한, 방대한 양의 비디오 컨텐츠에 대해 빠른 시간 내에 음악 데이터를 검출할 수 있으므로, 영상 편집에 소요되는 비용을 획기적으로 감소시킬 수 있다.
아울러, 본 발명에 따르면, 데이터 처리장치가 입력된 비디오 컨텐츠에 포함된 저작물에 대응되는 음악 데이터를 삭제하거나, 대체음악으로 치환하므로, 비디오 컨텐츠의 소유자 또는 유통자의 편의가 향상될 수 있다.
본 발명에 따르면, 사용자가 비디오 컨텐츠를 직접 스캔하지 않아도, 비디오 컨텐츠 내에 포함된 음악 데이터를 검출할 수 있으므로, 비디오 컨텐츠 편집을 수행하는 사용자의 편의를 향상시킬 수 있는 장점이 있다.
또한, 방대한 양의 비디오 컨텐츠에 대해 빠른 시간 내에 음악 데이터를 검출할 수 있으므로, 영상 편집에 소요되는 비용을 획기적으로 감소시킬 수 있다.
아울러, 본 발명에 따르면, 데이터 처리장치가 입력된 비디오 컨텐츠에 포함된 저작물에 대응되는 음악 데이터를 삭제하거나, 대체음악으로 치환하므로, 비디오 컨텐츠의 소유자 또는 유통자의 편의가 향상될 수 있다.

Claims (6)

  1. 비디오 스트림과 오디오 스트림을 포함하는 비디오 컨텐츠를 입력받는 단계;
    상기 오디오 스트림으로부터 음악 데이터를 검출하는 단계; 및
    상기 오디오 스트림에서 검출된 상기 음악 데이터가 제거되도록, 상기 오디오 스트림을 필터링하는 단계;를 포함하는 데이터 처리 방법.
  2. 제1항에 있어서,
    상기 오디오 스트림으로부터 음악 데이터를 검출하는 단계는,
    상기 오디오 스트림을 음악 데이터와 음성 데이터로 분리하기 위한 분리과정과, 상기 오디오 스트림으로부터 음악 데이터가 존재하는 구간을 검출하기 위한 검출과정을 포함하는 것을 특징으로 하는 데이터 처리 방법.
  3. 제2항에 있어서,
    상기 분리과정은 미리 학습된 제1 인공지능 모델에 의해 수행되고,
    상기 제1 인공지능 모델은,
    음악(music) 또는 음성(voice)으로 식별된 트레이닝 데이터를 이용하여 학습하도록 구성된 것을 특징으로 하는 데이터 처리 방법.
  4. 제2항에 있어서,
    상기 검출과정은 미리 학습된 제2 인공지능 모델에 의해 수행되고,
    상기 제2 인공지능 모델은,
    음악의 포함 여부가 미리 식별된 트레이닝 데이터 데이터를 이용하여 학습하도록 구성된 것을 특징으로 하는 데이터 처리 방법.
  5. 제1항에 있어서,
    상기 오디오 스트림을 필터링하는 단계는,
    검출된 상기 음악 데이터의 저작권 정보에 근거하여, 검출된 상기 음악 데이터의 저작물 여부를 판단하는 과정과,
    검출된 상기 음악 데이터의 저작물 여부에 따라, 상기 오디오 스트림을 필터링하는 과정을 포함하는 것을 특징으로 하는 데이터 처리 방법.
  6. 제1항에 있어서,
    검출된 상기 음악 데이터를, 상기 음악 데이터와 다른 대체음악 데이터로 변경하는 단계를 더 포함하는 것을 특징으로 하는 데이터 처리 방법.
PCT/KR2021/006244 2020-05-19 2021-05-18 비디오 컨텐츠로부터 음악 데이터를 검출하는 장치 및 그의 제어방법 WO2021235846A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP21809047.0A EP4156701A4 (en) 2020-05-19 2021-05-18 DEVICE FOR DETECTING MUSIC DATA FROM VIDEO CONTENT AND CONTROL METHOD THEREFOR
US17/925,682 US20230217074A1 (en) 2020-05-19 2021-05-18 Device for detecting music data from video contents, and method for controlling same
JP2022570731A JP2023530831A (ja) 2020-05-19 2021-05-18 ビデオコンテンツから音楽データを検出する装置およびその制御方法
CN202180036982.8A CN115735360A (zh) 2020-05-19 2021-05-18 用于从视频内容中检测音乐数据的装置及其控制方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0059429 2020-05-19
KR1020200059429 2020-05-19

Publications (1)

Publication Number Publication Date
WO2021235846A1 true WO2021235846A1 (ko) 2021-11-25

Family

ID=78700370

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/006244 WO2021235846A1 (ko) 2020-05-19 2021-05-18 비디오 컨텐츠로부터 음악 데이터를 검출하는 장치 및 그의 제어방법

Country Status (6)

Country Link
US (1) US20230217074A1 (ko)
EP (1) EP4156701A4 (ko)
JP (1) JP2023530831A (ko)
KR (1) KR102372580B1 (ko)
CN (1) CN115735360A (ko)
WO (1) WO2021235846A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030069419A (ko) * 2002-02-20 2003-08-27 안호성 음악 부분을 자동으로 선별해 저장하는 디지털 음악 재생장치 및 그 방법
JP2005071090A (ja) * 2003-08-25 2005-03-17 Hideyoshi Tominaga コンテンツ処理装置および配信システム
KR20100124983A (ko) * 2009-05-20 2010-11-30 인포뱅크 주식회사 유해물 차단 서비스 시스템 및 방법
JP5051237B2 (ja) * 2007-10-19 2012-10-17 日本電気株式会社 不適切コンテンツ検出方法および装置、そのコンピュータプログラム、ならびにコンテンツ公開システム
KR20190109661A (ko) * 2018-03-08 2019-09-26 한국전자통신연구원 동영상 감정 학습용 데이터 생성 방법, 동영상 감정 판단 방법, 이를 이용하는 동영상 감정 판단 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
US9195431B2 (en) * 2012-06-18 2015-11-24 Google Inc. System and method for selective removal of audio content from a mixed audio recording
US10440431B1 (en) * 2016-11-28 2019-10-08 Amazon Technologies, Inc. Adaptive and automatic video scripting

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030069419A (ko) * 2002-02-20 2003-08-27 안호성 음악 부분을 자동으로 선별해 저장하는 디지털 음악 재생장치 및 그 방법
JP2005071090A (ja) * 2003-08-25 2005-03-17 Hideyoshi Tominaga コンテンツ処理装置および配信システム
JP5051237B2 (ja) * 2007-10-19 2012-10-17 日本電気株式会社 不適切コンテンツ検出方法および装置、そのコンピュータプログラム、ならびにコンテンツ公開システム
KR20100124983A (ko) * 2009-05-20 2010-11-30 인포뱅크 주식회사 유해물 차단 서비스 시스템 및 방법
KR20190109661A (ko) * 2018-03-08 2019-09-26 한국전자통신연구원 동영상 감정 학습용 데이터 생성 방법, 동영상 감정 판단 방법, 이를 이용하는 동영상 감정 판단 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4156701A4 *

Also Published As

Publication number Publication date
CN115735360A (zh) 2023-03-03
EP4156701A1 (en) 2023-03-29
US20230217074A1 (en) 2023-07-06
JP2023530831A (ja) 2023-07-20
KR20210143105A (ko) 2021-11-26
EP4156701A4 (en) 2024-05-22
KR102372580B1 (ko) 2022-03-10

Similar Documents

Publication Publication Date Title
WO2021054565A1 (ko) 다중 음성시스템이 장착된 온라인미디어 서비스 구현 방법
CN110503961B (zh) 音频识别方法、装置、存储介质及电子设备
WO2017138766A1 (ko) 하이브리드 기반의 영상 클러스터링 방법 및 이를 운용하는 서버
WO2014061931A1 (ko) 음향 재생 장치 및 음향 재생 방법
WO2019112145A1 (ko) 음성인식 기반의 사진 공유 방법, 장치 및 시스템
WO2022114437A1 (ko) 클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템
WO2021118050A1 (ko) 하이라이트 영상 자동 편집을 위한 컴퓨터 프로그램
WO2021251539A1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
WO2018169276A1 (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
WO2021235846A1 (ko) 비디오 컨텐츠로부터 음악 데이터를 검출하는 장치 및 그의 제어방법
WO2021091145A1 (en) Electronic apparatus and method thereof
WO2021167220A1 (ko) 내용 기반 동영상 목차 자동생성 방법 및 시스템
WO2012057561A2 (ko) 인스턴트 메신저 서비스 제공시스템 및 그 제공방법, 및 통신 단말기 및 그 통신방법
CN114595361B (zh) 一种音乐热度的预测方法、装置、存储介质及电子设备
WO2022086196A1 (ko) 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 장치
WO2012102424A1 (ko) 전자 그림책 편집 장치 및 방법
WO2020246752A1 (ko) 초음파를 이용한 사용자 인증 방법
CN113641902A (zh) 音乐信息推送方法、装置、计算机设备及其存储介质
WO2020138943A1 (ko) 음성을 인식하는 장치 및 방법
WO2022260450A1 (ko) 오디오 음질 변환 장치 및 그의 제어방법
WO2020055173A1 (en) Method and system for audio content-based recommendations
WO2016072699A1 (ko) 사물인터넷 기반의 스마트 음향장치
WO2021060591A1 (ko) 캐릭터 발화 맥락에 따른 음성합성 모델 변경장치
WO2009126012A2 (ko) 검색시스템 및 그 방법
CN112201225A (zh) 一种语料获取的方法、装置、可读存储介质和电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21809047

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022570731

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021809047

Country of ref document: EP

Effective date: 20221219