WO2014133331A1 - Apparatus and method for generating karaoke contents - Google Patents

Apparatus and method for generating karaoke contents Download PDF

Info

Publication number
WO2014133331A1
WO2014133331A1 PCT/KR2014/001610 KR2014001610W WO2014133331A1 WO 2014133331 A1 WO2014133331 A1 WO 2014133331A1 KR 2014001610 W KR2014001610 W KR 2014001610W WO 2014133331 A1 WO2014133331 A1 WO 2014133331A1
Authority
WO
WIPO (PCT)
Prior art keywords
drum
sound
signal waveform
sound source
component
Prior art date
Application number
PCT/KR2014/001610
Other languages
French (fr)
Korean (ko)
Inventor
이인호
금종룡
Original Assignee
넥스트리밍(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 넥스트리밍(주) filed Critical 넥스트리밍(주)
Publication of WO2014133331A1 publication Critical patent/WO2014133331A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres

Definitions

  • the present invention relates to an apparatus and method for generating karaoke content, and more particularly, to an apparatus and method for generating karaoke content by removing vocal components from music content.
  • music content includes the singer's vocal component and the accompaniment component of various musical instruments.
  • the music content includes a stereo signal consisting of a left channel and a right channel.
  • the sounds of kick drums, snare drums, and bass guitars which form the basis of popular music, are present in the center of the stereo domain, so that the vocal components and the vocal components of the singer are removed. They all disappear together.
  • the generated karaoke content loses the fundamental feeling of the music.
  • Technical problem to be solved by the present invention is to create a karaoke content to restore the sound of the kick drum, snare drum, bass guitar, etc. disappears in the process of creating karaoke content in the music content to create karaoke content that can maximize the feeling of the original song
  • An apparatus and a method thereof are provided.
  • An apparatus for generating karaoke content is a vocal processing unit which generates a processing sound source by removing a mono component of music content including a first sound source transmitted through a left channel and a second sound source transmitted through a right channel.
  • a bass extractor extracting a bass component of the music content, a drum processor detecting a drum component from the music content, and selecting a drum sound from a plurality of drum sound samples, and the processing sound source, the bass component, and the drum sound It includes a mixing unit for synthesizing to generate the karaoke content.
  • the vocal processing unit may obtain a difference signal between the first sound source and the second sound source and remove a mono component of the music content.
  • the vocal processing unit may generate a first processing sound source from which the mono component is removed by subtracting the second sound source from the first sound source.
  • the bass extractor may obtain a sum signal of the first sound source and the second sound source, and extract the bass component of the music content by passing the sum signal through a low pass filter.
  • the low pass filter may be a filter for passing a bass component having a frequency less than or equal to the bandwidth of a human voice.
  • the drum processor may include a drum detector configured to generate the drum component including the temporal position and volume characteristics of the drum in the music content, and the plurality of drum sound samples, and select a drum sound from the plurality of drum sound samples. It may include a drum sample unit.
  • the drum detector may extract a fundamental frequency and a signal waveform of the music content for each unit time, and analyze an envelope characteristic of the signal waveform to determine whether the signal waveform is a signal waveform of a drum.
  • the drum detector may detect a unit time from which the signal waveform is extracted as a drum point.
  • the drum detector may calculate a volume area of the signal waveform with the zero crossing line, and select a volume coefficient for determining a volume level based on the volume area.
  • the drum detector may determine whether the signal waveform is a signal waveform of a kick drum or a snare drum by comparing the period of the signal waveform with a threshold value.
  • the drum sample unit may select any one of a kick drum sound and a snare drum sound from the plurality of drum sound samples, and convert the volume of the selected drum sound according to the volume coefficient.
  • a method of generating karaoke content includes generating a processing sound source by removing a mono component of music content including a first sound source transmitted through a left channel and a second sound source transmitted through a right channel. Extracting a bass component of the music content, detecting a drum component in the music content, selecting a drum sound from a plurality of drum sound samples, and synthesizing the processed sound source, the bass component and the drum sound to karaoke Generating content.
  • the generating of the processed sound source may include generating a first processed sound source from which the mono component is removed by subtracting the second sound source from the first sound source.
  • the extracting the bass component of the music content may include obtaining a sum signal of the first sound source and the second sound source, and extracting the bass component of the music content by passing the sum signal through a low pass filter. It may include.
  • the detecting of the drum component in the music content may include extracting a fundamental frequency and a signal waveform of the music content at unit time, and analyzing an envelope characteristic of the signal waveform to determine whether the signal waveform is a signal waveform of a drum. It may include the step of determining.
  • the detecting of the drum component in the music content may further include detecting, as a drum point, a unit time from which the signal waveform is extracted when it is determined that the signal waveform is a signal waveform of a drum.
  • the detecting of the drum component in the music content may further include calculating a volume area of the signal waveform with the zero crossing line, and selecting a volume coefficient for determining a volume level based on the volume area. Can be.
  • the detecting of a drum component in the music content may further include determining whether the signal waveform is a signal waveform of a kick drum or a snare drum by comparing the period of the signal waveform with a threshold value.
  • the selecting of the drum sound in the plurality of drum sound samples may include selecting a kick drum sound in the plurality of drum sound samples when the signal waveform is a signal waveform of the kick drum, and the volume of the kick drum sound. It may include the step of converting according to the volume coefficient.
  • the sound of the kick drum, the snare drum, the bass guitar, and the like may be recovered from the karaoke content generated from the music content, and the generated karaoke content may maximize the feeling of the original song.
  • FIG. 1 is a block diagram illustrating an apparatus for generating karaoke content according to an embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating a method of generating karaoke content according to an embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating an apparatus for generating karaoke content according to an embodiment of the present invention.
  • the apparatus for generating karaoke content 100 includes a content input unit 110, a vocal processing unit 120, a bass extraction unit 130, a drum processing unit 140, and a mixing unit 150. .
  • the content input unit 110 receives music content (Music Contents, MC) from the external device through the left channel and the right channel.
  • the external device means an internet site that provides a sound source, a storage medium in which the sound source is stored, and the like.
  • the left channel is a channel through which the first vocal component and the first accompaniment component are transmitted
  • the right channel is a channel through which the second vocal component and the second accompaniment component are transmitted. That is, the music content MC is a stereo sound source in which the singer's vocal components and the accompaniment components of various musical instruments are transmitted to the left and right channels.
  • music content including a first vocal component and a first accompaniment component transmitted through a left channel is called a first sound source ML, and includes a second vocal component and a second accompaniment component transmitted through a right channel.
  • the music content is called a second sound source MR.
  • the first vocal component and the second vocal component are recorded identically, while the first accompaniment component and the second accompaniment component are recorded differently. That is, accompaniment components of different instruments are transmitted through the left channel and the right channel to obtain a stereo sound effect.
  • the music content MC is a digital signal converted in accordance with a pulse code modulation (PCM) scheme.
  • PCM pulse code modulation
  • the PCM method is one of methods for modulating an analog audio signal into a digital signal, and is a modulation method that is practically applied to most digital audio such as a compact disk (CD).
  • the content input unit 110 may modulate the analog audio signal into a digital signal according to the PCM method. That is, the content input unit 110 represents a sampling process of measuring the instantaneous voltage of the negative waveform at a very short time, a process of quantizing the voltage value of the measured instantaneous voltage, and a quantized voltage value as a binary number of 1 and 0.
  • An analog audio signal may be modulated into a digital signal by performing an encoding process.
  • the content input unit 110 transmits the first sound source ML and the second sound source MR to the vocal processing unit 120, the bass extraction unit 130, and the drum processing unit 140.
  • the content input unit 110 synchronizes the time when the first sound source ML and the second sound source MR are transmitted to the vocal processing unit 120, the bass extraction unit 130, and the drum processing unit 140, and then mixes the mixing unit. Sound synthesis at 150 can be matched in time.
  • the content input unit 110 divides the time at which the first sound source ML and the second sound source MR are reproduced into a plurality of unit times, and the same in the first sound source ML and the second sound source MR.
  • a portion corresponding to the unit time may be simultaneously transmitted to the vocal processing unit 120, the bass extraction unit 130, and the drum processing unit 140 so that the sound synthesis in the mixing unit 150 matches in time.
  • the vocal processing unit 120 obtains a difference signal between the first sound source ML and the second sound source MR and removes a mono component located in the center of the stereo region.
  • the vocal processing unit 120 may generate the first processing sound source ML-V from which the mono component is removed by subtracting the second sound source MR from the first sound source ML.
  • the vocal processing unit 120 may generate the second processing sound source MR-V from which the mono component is removed by subtracting the first sound source ML from the second sound source MR.
  • the vocal processing unit 120 transmits the first processing sound source ML-V and the second processing sound source MR-V to the mixing unit 150.
  • the vocal processing unit 120 may generate and transmit only one of the first processing sound source ML-V and the second processing sound source MR-V to the mixing unit 150.
  • the bass extractor 130 extracts a bass component S-low of the music content MC.
  • the bass extractor 130 obtains a sum signal of the first sound source ML and the second sound source MR, and passes the sum signal through a low pass filter to thereby obtain the music content MC.
  • the bass component (S-low) of can be extracted.
  • the low pass filter is composed of a filter that passes a low tone component having a frequency less than or equal to a bandwidth of a human voice to extract a low tone component (S-low) that does not include a vocal component.
  • the bass extraction unit 130 transmits a bass component (S-low) to the mixing unit 150.
  • kick drums, snare drums, and bass guitars are the basis of music, they are included in the music content MC as mono components. Therefore, in the process of removing the mono component from the vocal processing unit 120, the sound components of the kick drum, the snare drum, and the bass guitar are mostly removed.
  • bass components (S-low) below the bandwidth of the human voice By extracting bass components (S-low) below the bandwidth of the human voice from the bass extractor 130, the bass components of the kick drum, snare drum, bass, etc. removed from the vocal processing unit 120 can be recovered. . Most sounds of the bass guitar may be recovered through the bass extractor 130, but sounds of the kick drum and the snare drum may not be sufficiently recovered. In particular, the sound of the snare drum is not only mostly removed from the vocal processing unit 120 but also hardly recovered from the bass extraction unit 130.
  • the drum processor 140 detects the kick drum component KD and the snare drum component SD in the music content MC, and according to the detected kick drum component KD and the snare drum component SD, the kick drum sound ( KDS) and Snare Drum Sounds (SDS).
  • the kick drum component KD may include the temporal position and volume characteristics of the kick drum in time at which the music content MC is played.
  • the snare drum component SD may include the temporal position and volume characteristics of the snare drum in time at which the music content MC is played.
  • the drum processor 140 includes a drum detector 141 and a drum sample unit 142.
  • the drum detector 141 analyzes the music content MC in real time to detect the position and volume characteristics of the drum in the music content MC.
  • the drum detector 141 may divide the time at which the music content MC is played back into a plurality of unit times, and extract a fundamental frequency and a signal waveform of the music content MC for each unit time.
  • the drum detector 141 analyzes the envelope characteristic of the extracted fundamental frequency and signal waveform to determine whether the signal waveform is a signal waveform of the drum. If it is determined that the signal waveform is the signal waveform of the drum, the drum detector 141 may detect the unit time from which the signal waveform is extracted as a drum point. That is, the temporal position of the drum in the music content MC is detected.
  • the drum detector 141 may calculate a volume area of the signal waveform formed with a zero crossing line, and select a volume coefficient for determining the volume level based on the volume area. That is, the volume characteristic of the drum is detected in the music content MC.
  • the drum detection unit 141 compares the period of the signal waveform with a threshold to discriminate whether the signal waveform is a signal waveform of a kick drum or a snare drum. If it is determined that the signal waveform is a signal waveform of the kick drum, the drum detector 141 generates a kick drum component KD including the position and volume characteristics of the kick drum in time. If it is determined that the signal waveform is a signal waveform of the snare drum, the drum detector 141 generates a snare drum component SD including the temporal position and volume characteristics of the snare drum. The drum detector 141 transfers the kick drum component KD and the snare drum component SD to the drum sample unit 142.
  • the drum sample unit 142 stores various drum sound samples of the kick drum and the snare drum.
  • the drum sample unit 142 selects a drum sound from a plurality of drum sound samples.
  • the user checks the kick drum component KD and the snare drum component SD, and selects the kick drum sound KDS or the snare drum sound SDS from the plurality of drum sound samples through the drum sample unit 142.
  • the drum sample unit 142 may select a drum sound according to the user's selection.
  • the drum sample unit 142 may select the kick drum sound KDS corresponding to the kick drum component KD in the drum sound sample, and select the snare drum sound SDS corresponding to the snare drum component SD. have.
  • the drum sample unit 142 converts the volume of the selected kick drum sound KDS according to the volume coefficient included in the kick drum component KD, and includes the volume of the snare drum sound SDS in the snare drum component SD. Can be converted according to the volume coefficient.
  • the drum sample unit 142 delivers the kick drum sound KDS and the snare drum sound SDS to the mixing unit 150.
  • the mixing unit 150 may include at least one of the first processing sound source ML-V and the second processing sound source MR-V, a bass component S-low, a kick drum sound KDS, and a snare drum sound ( SDS) is synthesized to generate Karaoke content (KC).
  • the karaoke content KC may include at least one of a first karaoke sound source of the left channel and a second karaoke sound source of the right channel.
  • the first karaoke sound source may be produced by combining the first processing sound source ML-V, the bass component S-low, the kick drum sound KDS, and the snare drum sound SDS.
  • the second karaoke sound source may be generated by combining the second processing sound source ML-R, the bass component S-low, the kick drum sound KDS, and the snare drum sound SDS.
  • the karaoke content KC may be generated as a stereo sound source in which an accompaniment component of the musical instrument except for the singer's vocal component is transmitted through the left channel and the right channel.
  • the proposed karaoke content generating apparatus 100 performs the operations of the vocal processing unit 120, the bass extraction unit 130, and the drum processing unit 140 in synchronization with the time when the music content is played, and in the mixing unit 150. By synthesizing, the music content MC can be converted into karaoke content KC in real time.
  • the proposed karaoke content generating apparatus 100 may restore the sound of the kick drum, the snare drum, and the bass guitar that disappear in the process of removing the singer's vocal component.
  • karaoke content KC
  • the drum processor 140 detects the kick drum component KD and the snare drum component SD in the first sound source ML and the second sound source MR, and detects the kick drum sound KDS and the snare drum sound ( The process of generating SDS) will be described in more detail.
  • FIG. 2 is a flowchart illustrating a method of generating karaoke content according to an embodiment of the present invention.
  • the playback time of the music content MC is divided into a plurality of unit times, and the basic frequency of the music content MC is extracted for each unit time (S110).
  • a fundamental frequency and a signal waveform thereof may be extracted from one of the first sound source ML and the second sound source MR.
  • a fundamental frequency and a signal waveform may be extracted from each of the first sound source ML and the second sound source MR.
  • the envelope characteristic of the extracted fundamental frequency and signal waveform is analyzed (S120). Envelopes are lines drawn around the waveform by connecting the ends of the signal waveform to each other. Since various instruments have an envelope unique to the instrument, drum sounds may be distinguished through an envelope characteristic analysis. In particular, the drum sound may be distinguished from any one of the first sound source ML and the second sound source MR by analyzing the attack time of the envelope. Attack time is the time from when the sound starts to reaching the maximum volume, which has a different attack time for each type of instrument.
  • the signal waveform is the signal waveform of the drum through the envelope characteristic analysis (S130). By determining whether the attack time of the envelope coincides with the attack time of the drum sound, it may be determined whether the signal waveform is the signal waveform of the drum.
  • the process of extracting the fundamental frequency of the portion corresponding to the next unit time (S110) is performed.
  • the unit time from which the signal waveform is extracted is detected as a drum point (S140).
  • the drum point means a time at which a drum sound exists among the time when the music content MC is played.
  • the drum volume indicated by the signal waveform is detected at the drum point (S150). It is common for the drum volume to be different depending on the nature of the music. Or even within a piece of music, the volume of the drums varies depending on the part played. When synthesizing the drum sound to the detected drum point, if a constant volume drum sound is synthesized, the musical feeling of the original song may be impaired. Therefore, it is preferable to adjust the volume of the drum sound synthesized by detecting the drum volume of the original music.
  • the volume of the drum may be calculated as the volume area of the signal waveform with the zero crossing line. Since the volume area is proportional to the power value per unit time of the signal waveform, the power value per unit time of the signal waveform is obtained from the volume area.
  • a volume coefficient for determining the volume of the drum sound may be selected based on the volume area.
  • the volume of the drum sound selected from the plurality of drum sound samples may be converted according to the selected volume coefficient. Accordingly, the synthesized drum sound may have an intensity pattern similar to that of the original song, and the volume level pattern of the original song may be restored as it is.
  • the threshold value F may be set to an appropriate value by analyzing the period of the signal waveform of the sound of a number of kick drums and snare drums.
  • the kick drum sound KDS is generated (S170). At this time, a kick drum component KD is generated that includes the detected drum point and the volume coefficient of the drum. The user can identify the kick drum component KD and select the kick drum sound KDS from a plurality of drum sound samples. The volume of the selected kick drum sound KDS may be converted according to the volume coefficient included in the kick drum component KD.
  • a kick drum sound (KDS) having an envelope most similar to the envelope characteristic of the signal waveform among a plurality of drum sound samples may be selected, and the volume of the selected kick drum sound (KDS) may be selected from the kick drum component (KD). Can be converted according to the included volume coefficient.
  • the snare drum sound SDS is generated (S180). At this time, the snare drum component SD including the detected drum point and the volume coefficient of the drum is generated. The user can identify the snare drum component SD and select the snare drum sound SDS from the plurality of drum sound samples. The volume of the selected snare drum sound SDS may be converted according to the volume coefficient included in the snare drum component SD.
  • a snare drum sound SDS having an envelope most similar to the envelope characteristic of a signal waveform among a plurality of drum sound samples may be selected, and the volume of the selected snare drum sound SDS may be selected from the snare drum component SD. Can be converted according to the included volume coefficient.
  • step S190 It is determined whether the input of the music content MC is terminated (S190).
  • the generation process of the karaoke content KC is finished.
  • the process is performed again from step S110 to step S190. That is, the process of generating the kick drum sound KDS and the snare drum sound SDS for each unit time may be repeatedly performed until the time when the reproduction of the music content MC ends.
  • the above-described karaoke content generating apparatus 100 may be programmed and implemented in various electronic devices such as a computer, a mobile phone, and an MP3 player, and may be produced as an application for a smartphone and stored in an application service server or a storage medium. .

Abstract

An apparatus for generating karaoke contents according to the present invention comprises: a vocal processing unit for generating a processed music source by removing a mono component from music contents including a first music source transmitted via a left channel and a second music source transmitted via a right channel; a low sound extraction unit for extracting a low sound component from the music contents; a drum processing unit for detecting a drum component from the music contents, and selecting a drum sound among a plurality of drum sound samples; and a mixing unit for generating karaoke contents by composing the processed music source, the low sound component and the drum sound.

Description

가라오케 컨텐츠 생성 장치 및 그 방법Karaoke content generation device and method
본 발명은 가라오케 컨텐츠 생성 장치 및 그 방법에 관한 것으로, 보다 상세하게는 음악 컨텐츠에서 보컬 성분을 제거하여 가라오케 컨텐츠를 생성하는 가라오케 컨텐츠 생성 장치 및 그 방법에 관한 것이다.The present invention relates to an apparatus and method for generating karaoke content, and more particularly, to an apparatus and method for generating karaoke content by removing vocal components from music content.
일반적으로, 음악 컨텐츠는 가수의 보컬(vocal) 성분과 여러 가지 악기의 반주(accompaniment) 성분을 포함한다. 그리고 음악 컨텐츠는 좌 채널과 우 채널로 이루어지는 스테레오 신호를 포함한다.In general, music content includes the singer's vocal component and the accompaniment component of various musical instruments. The music content includes a stereo signal consisting of a left channel and a right channel.
최근에는 음악 컨텐츠에서 가수의 보컬 성분을 제거하여 반주 성분만으로 이루어지는 가라오케(karaoke) 컨텐츠를 생성할 수 있는 기술이 개발되고 있다. 음악 컨텐츠에서 가수의 보컬 성분을 제거하는 과정에서 스테레오 영역의 중앙에 존재하는 악기의 반주 성분도 함께 제거된다. Recently, a technology for generating karaoke content including only accompaniment components by removing vocal components of a singer from music contents has been developed. In the process of removing the singer's vocal component from the music content, the accompaniment component of the musical instrument located in the center of the stereo region is also removed.
특히, 대중음악의 기본을 이루는 킥 드럼(kick drum), 스네어 드럼(snare drum) 및 베이스 기타(base guitar)의 사운드는 스테레오 영역의 중앙에 존재하여 가수의 보컬 성분을 제거하는 과정에서 보컬 성분과 함께 모두 사라지게 된다.In particular, the sounds of kick drums, snare drums, and bass guitars, which form the basis of popular music, are present in the center of the stereo domain, so that the vocal components and the vocal components of the singer are removed. They all disappear together.
따라서, 생성된 가라오케 컨텐츠는 그 음악의 근본적인 느낌을 잃어버리는 문제가 발생한다. Therefore, the generated karaoke content loses the fundamental feeling of the music.
본 발명이 해결하고자 하는 기술적 과제는 음악 컨텐츠에서 가라오케 컨텐츠를 생성하는 과정에서 사라지는 킥 드럼, 스네어 드럼, 베이스 기타 등의 사운드를 복구하여 원곡의 느낌을 최대한 살릴 수 있는 가라오케 컨텐츠를 생성하는 가라오케 컨텐츠 생성 장치 및 그 방법을 제공함에 있다.Technical problem to be solved by the present invention is to create a karaoke content to restore the sound of the kick drum, snare drum, bass guitar, etc. disappears in the process of creating karaoke content in the music content to create karaoke content that can maximize the feeling of the original song An apparatus and a method thereof are provided.
본 발명의 일 실시 예에 따른 가라오케 컨텐츠 생성 장치는 좌 채널을 통해 전송되는 제 1 음원 및 우 채널을 통해 전송되는 제 2 음원을 포함하는 음악 컨텐츠의 모노 성분을 제거하여 처리 음원을 생성하는 보컬 처리부, 상기 음악 컨텐츠의 저음 성분을 추출하는 저음 추출부, 상기 음악 컨텐츠에서 드럼 성분을 검출하고, 복수의 드럼 사운드 샘플에서 드럼 사운드를 선택하는 드럼 처리부, 및 상기 처리 음원, 상기 저음 성분, 상기 드럼 사운드를 합성하여 가라오케 컨텐츠를 생성하는 믹싱부를 포함한다.An apparatus for generating karaoke content according to an embodiment of the present invention is a vocal processing unit which generates a processing sound source by removing a mono component of music content including a first sound source transmitted through a left channel and a second sound source transmitted through a right channel. A bass extractor extracting a bass component of the music content, a drum processor detecting a drum component from the music content, and selecting a drum sound from a plurality of drum sound samples, and the processing sound source, the bass component, and the drum sound It includes a mixing unit for synthesizing to generate the karaoke content.
*상기 보컬 처리부는 상기 제 1 음원과 상기 제 2 음원의 차신호를 구하여 상기 음악 컨텐츠의 모노 성분을 제거할 수 있다.The vocal processing unit may obtain a difference signal between the first sound source and the second sound source and remove a mono component of the music content.
상기 보컬 처리부는 상기 제 1 음원에서 상기 제 2 음원을 감산하여 상기 모노 성분이 제거된 제 1 처리 음원을 생성할 수 있다.The vocal processing unit may generate a first processing sound source from which the mono component is removed by subtracting the second sound source from the first sound source.
상기 저음 추출부는 상기 제 1 음원과 상기 제 2 음원의 합신호를 구하고, 상기 합신호를 저역 통과 필터를 통과시켜 상기 음악 컨텐츠의 저음 성분을 추출할 수 있다.The bass extractor may obtain a sum signal of the first sound source and the second sound source, and extract the bass component of the music content by passing the sum signal through a low pass filter.
상기 저역 통과 필터는 사람 음성의 대역폭 이하의 주파수를 갖는 저음 성분을 통과시키는 필터일 수 있다. The low pass filter may be a filter for passing a bass component having a frequency less than or equal to the bandwidth of a human voice.
상기 드럼 처리부는, 상기 음악 컨텐츠에서 드럼의 시간상 위치와 음량 특징을 포함하는 상기 드럼 성분을 생성하는 드럼 검출부, 및 상기 복수의 드럼 사운드 샘플을 저장하고, 상기 복수의 드럼 사운드 샘플에서 드럼 사운드를 선택하는 드럼 샘플부를 포함할 수 있다.The drum processor may include a drum detector configured to generate the drum component including the temporal position and volume characteristics of the drum in the music content, and the plurality of drum sound samples, and select a drum sound from the plurality of drum sound samples. It may include a drum sample unit.
상기 드럼 검출부는 단위 시간별로 상기 음악 컨텐츠의 기본 주파수 및 신호 파형을 추출하고, 상기 신호 파형의 엔빌로프 특성을 분석하여 상기 신호 파형이 드럼의 신호 파형인지 여부를 판단할 수 있다.The drum detector may extract a fundamental frequency and a signal waveform of the music content for each unit time, and analyze an envelope characteristic of the signal waveform to determine whether the signal waveform is a signal waveform of a drum.
상기 드럼 검출부는 상기 신호 파형이 드럼의 신호 파형인 것으로 판단되면 상기 신호 파형이 추출된 단위 시간을 드럼 포인트로 검출할 수 있다.If it is determined that the signal waveform is a signal waveform of a drum, the drum detector may detect a unit time from which the signal waveform is extracted as a drum point.
상기 드럼 검출부는 상기 신호 파형이 영교차 라인과 이루는 음량 면적을 산출하고, 상기 음량 면적을 기반으로 음량 레벨을 결정하는 음량 계수를 선택할 수 있다.The drum detector may calculate a volume area of the signal waveform with the zero crossing line, and select a volume coefficient for determining a volume level based on the volume area.
상기 드럼 검출부는 상기 신호 파형의 주기를 임계값과 비교하여 상기 신호 파형이 킥 드럼 및 스네어 드럼 중 어느 것의 신호 파형인지 여부를 구분할 수 있다. The drum detector may determine whether the signal waveform is a signal waveform of a kick drum or a snare drum by comparing the period of the signal waveform with a threshold value.
상기 드럼 샘플부는 상기 복수의 드럼 사운드 샘플에서 킥 드럼 사운드 및 스네어 드럼 사운드 중 어느 하나를 선택하고, 선택된 드럼 사운드의 음량을 상기 음량 계수에 따라 변환할 수 있다.The drum sample unit may select any one of a kick drum sound and a snare drum sound from the plurality of drum sound samples, and convert the volume of the selected drum sound according to the volume coefficient.
본 발명의 다른 실시예에 가라오케 컨텐츠 생성 방법은 좌 채널을 통해 전송되는 제 1 음원 및 우 채널을 통해 전송되는 제 2 음원을 포함하는 음악 컨텐츠의 모노 성분을 제거하여 처리 음원을 생성하는 단계, 상기 음악 컨텐츠의 저음 성분을 추출하는 단계, 상기 음악 컨텐츠에서 드럼 성분을 검출하는 단계, 복수의 드럼 사운드 샘플에서 드럼 사운드를 선택하는 단계, 및 상기 처리 음원, 상기 저음 성분 및 상기 드럼 사운드를 합성하여 가라오케 컨텐츠를 생성하는 단계를 포함한다.According to another embodiment of the present invention, a method of generating karaoke content includes generating a processing sound source by removing a mono component of music content including a first sound source transmitted through a left channel and a second sound source transmitted through a right channel. Extracting a bass component of the music content, detecting a drum component in the music content, selecting a drum sound from a plurality of drum sound samples, and synthesizing the processed sound source, the bass component and the drum sound to karaoke Generating content.
상기 처리 음원을 생성하는 단계는, 상기 제 1 음원에서 상기 제 2 음원을 감산하여 상기 모노 성분이 제거된 제 1 처리 음원을 생성하는 단계를 포함할 수 있다.The generating of the processed sound source may include generating a first processed sound source from which the mono component is removed by subtracting the second sound source from the first sound source.
상기 음악 컨텐츠의 저음 성분을 추출하는 단계는, 상기 제 1 음원과 상기 제 2 음원의 합신호를 구하는 단계, 및 상기 합신호를 저역 통과 필터를 통과시켜 상기 음악 컨텐츠의 저음 성분을 추출하는 단계를 포함할 수 있다.The extracting the bass component of the music content may include obtaining a sum signal of the first sound source and the second sound source, and extracting the bass component of the music content by passing the sum signal through a low pass filter. It may include.
상기 음악 컨텐츠에서 드럼 성분을 검출하는 단계는, 단위 시간별로 상기 음악 컨텐츠의 기본 주파수 및 신호 파형을 추출하는 단계, 및 상기 신호 파형의 엔빌로프 특성을 분석하여 상기 신호 파형이 드럼의 신호 파형인지 여부를 판단하는 단계를 포함할 수 있다.The detecting of the drum component in the music content may include extracting a fundamental frequency and a signal waveform of the music content at unit time, and analyzing an envelope characteristic of the signal waveform to determine whether the signal waveform is a signal waveform of a drum. It may include the step of determining.
상기 음악 컨텐츠에서 드럼 성분을 검출하는 단계는, 상기 신호 파형이 드럼의 신호 파형인 것으로 판단되면, 상기 신호 파형이 추출된 단위 시간을 드럼 포인트로 검출하는 단계를 더 포함할 수 있다.The detecting of the drum component in the music content may further include detecting, as a drum point, a unit time from which the signal waveform is extracted when it is determined that the signal waveform is a signal waveform of a drum.
상기 음악 컨텐츠에서 드럼 성분을 검출하는 단계는, 상기 신호 파형이 영교차 라인과 이루는 음량 면적을 산출하는 단계, 및 상기 음량 면적을 기반으로 음량 레벨을 결정하는 음량 계수를 선택하는 단계를 더 포함할 수 있다.The detecting of the drum component in the music content may further include calculating a volume area of the signal waveform with the zero crossing line, and selecting a volume coefficient for determining a volume level based on the volume area. Can be.
상기 음악 컨텐츠에서 드럼 성분을 검출하는 단계는, 상기 신호 파형의 주기를 임계값과 비교하여 상기 신호 파형이 킥 드럼 및 스네어 드럼 중 어느 것의 신호 파형인지 여부를 판단하는 단계를 더 포함할 수 있다.The detecting of a drum component in the music content may further include determining whether the signal waveform is a signal waveform of a kick drum or a snare drum by comparing the period of the signal waveform with a threshold value.
상기 복수의 드럼 사운드 샘플에서 드럼 사운드가 선택되는 단계는, 상기 신호 파형이 상기 킥 드럼의 신호 파형인 경우, 상기 복수의 드럼 사운드 샘플에서 킥 드럼 사운드가 선택되는 단계, 및 상기 킥 드럼 사운드의 음량을 상기 음량 계수에 따라 변환하는 단계를 포함할 수 있다.The selecting of the drum sound in the plurality of drum sound samples may include selecting a kick drum sound in the plurality of drum sound samples when the signal waveform is a signal waveform of the kick drum, and the volume of the kick drum sound. It may include the step of converting according to the volume coefficient.
상기 복수의 드럼 사운드 샘플에서 드럼 사운드가 선택되는 단계는, 상기 신호 파형이 상기 스네어 드럼의 주파수인 경우, 상기 복수의 드럼 사운드 샘플에서 스네어 드럼 사운드가 선택되는 단계, 및 상기 스네어 드럼 사운드의 음량을 상기 음량 계수에 따라 변환하는 단계를 포함할 수 있다.Selecting a drum sound from the plurality of drum sound samples, the step of selecting a snare drum sound from the plurality of drum sound samples, when the signal waveform is the frequency of the snare drum, and the volume of the snare drum sound And converting according to the volume coefficient.
음악 컨텐츠로부터 생성되는 가라오케 컨텐츠에서 킥 드럼, 스네어 드럼, 베이스 기타 등의 사운드가 복구될 수 있고, 이에 따라 생성된 가라오케 컨텐츠는 원곡의 느낌을 최대한 살릴 수 있다.The sound of the kick drum, the snare drum, the bass guitar, and the like may be recovered from the karaoke content generated from the music content, and the generated karaoke content may maximize the feeling of the original song.
도 1은 본 발명의 일 실시예에 가라오케 컨텐츠 생성 장치를 나타내는 블록도이다. 1 is a block diagram illustrating an apparatus for generating karaoke content according to an embodiment of the present invention.
도 2는 본 발명의 일 실시예에 따른 가라오케 컨텐츠 생성 방법을 나타내는 흐름도이다.2 is a flowchart illustrating a method of generating karaoke content according to an embodiment of the present invention.
이하, 첨부한 도면을 참고로 하여 본 발명의 실시예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예들에 한정되지 않는다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention.
또한, 여러 실시예들에 있어서, 동일한 구성을 가지는 구성요소에 대해서는 동일한 부호를 사용하여 대표적으로 제 1 실시예에서 설명하고, 그 외의 실시예에서는 제 1 실시예와 다른 구성에 대해서만 설명하기로 한다.In addition, in various embodiments, components having the same configuration will be representatively described in the first embodiment using the same reference numerals, and in other embodiments, only the configuration different from the first embodiment will be described. .
본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다.In order to clearly describe the present invention, parts irrelevant to the description are omitted, and like reference numerals designate like elements throughout the specification.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is said to "include" a certain component, it means that it can further include other components, without excluding other components unless specifically stated otherwise.
도 1은 본 발명의 일 실시예에 가라오케 컨텐츠 생성 장치를 나타내는 블록도이다. 1 is a block diagram illustrating an apparatus for generating karaoke content according to an embodiment of the present invention.
도 1을 참조하면, 가라오케 컨텐츠 생성 장치(100)는 컨텐츠 입력부(110), 보컬 처리부(120), 저음 추출부(130), 드럼 처리부(140) 및 믹싱부(Mixer)(150)를 포함한다. Referring to FIG. 1, the apparatus for generating karaoke content 100 includes a content input unit 110, a vocal processing unit 120, a bass extraction unit 130, a drum processing unit 140, and a mixing unit 150. .
컨텐츠 입력부(110)는 외부 장치로부터 좌 채널 및 우 채널을 통해 음악 컨텐츠(Music Contents, MC)를 제공받는다. 외부 장치는 음원을 제공하는 인터넷 사이트, 음원이 저장되어 있는 저장매체 등을 의미한다. 좌 채널은 제 1 보컬 성분 및 제 1 반주 성분이 전송되는 채널이고, 우 채널은 제 2 보컬 성분 및 제 2 반주 성분이 전송되는 채널이다. 즉, 음악 컨텐츠(MC)는 가수의 보컬 성분과 여러 가지 악기의 반주 성분이 좌우 채널로 전송되는 스테레오 음원이다.The content input unit 110 receives music content (Music Contents, MC) from the external device through the left channel and the right channel. The external device means an internet site that provides a sound source, a storage medium in which the sound source is stored, and the like. The left channel is a channel through which the first vocal component and the first accompaniment component are transmitted, and the right channel is a channel through which the second vocal component and the second accompaniment component are transmitted. That is, the music content MC is a stereo sound source in which the singer's vocal components and the accompaniment components of various musical instruments are transmitted to the left and right channels.
이하, 좌 채널을 통해 전송되는 제 1 보컬 성분 및 제 1 반주 성분을 포함하는 음악 컨텐츠를 제 1 음원(ML)이라 하고, 우 채널을 통해 전송되는 제 2 보컬 성분 및 제 2 반주 성분을 포함하는 음악 컨텐츠를 제 2 음원(MR)이라 한다.Hereinafter, music content including a first vocal component and a first accompaniment component transmitted through a left channel is called a first sound source ML, and includes a second vocal component and a second accompaniment component transmitted through a right channel. The music content is called a second sound source MR.
일반적으로, 스테레오 음원에서 제 1 보컬 성분과 제 2 보컬 성분은 동일하게 기록되는 반면, 제 1 반주 성분과 제 2 반주 성분은 서로 다르게 기록된다. 즉, 스테레오 음향 효과를 얻기 위하여 좌 채널과 우 채널을 통해 서로 다른 악기의 반주 성분이 전송된다. In general, in a stereo sound source, the first vocal component and the second vocal component are recorded identically, while the first accompaniment component and the second accompaniment component are recorded differently. That is, accompaniment components of different instruments are transmitted through the left channel and the right channel to obtain a stereo sound effect.
음악 컨텐츠(MC)는 PCM(Pulse Code Modulation) 방식에 따라 변환된 디지털 신호이다. PCM 방식은 아날로그 오디오 신호를 디지털 신호로 변조하는 방법 중의 하나로써, CD(Compact Disk) 등의 대부분의 디지털 오디오에 실용화되어 있는 변조 방식이다. The music content MC is a digital signal converted in accordance with a pulse code modulation (PCM) scheme. The PCM method is one of methods for modulating an analog audio signal into a digital signal, and is a modulation method that is practically applied to most digital audio such as a compact disk (CD).
음악 컨텐츠(MC)가 디지털 신호가 아니라 마이크 등을 통하여 수신되는 아날로그 오디오 신호인 경우, 컨텐츠 입력부(110)는 PCM 방식에 따라 아날로그 오디오 신호를 디지털 신호로 변조할 수 있다. 즉, 컨텐츠 입력부(110)는 아주 짧은 시간마다 음의 파형의 순간 전압을 측정하는 표본화 과정, 측정한 순간 전압의 전압값을 양자화하는 과정, 및 양자화된 전압값을 1과 0의 2진수로 표현하는 부호화 과정을 수행하여 아날로그 오디오 신호를 디지털 신호로 변조할 수 있다. When the music content MC is not an digital signal but an analog audio signal received through a microphone, the content input unit 110 may modulate the analog audio signal into a digital signal according to the PCM method. That is, the content input unit 110 represents a sampling process of measuring the instantaneous voltage of the negative waveform at a very short time, a process of quantizing the voltage value of the measured instantaneous voltage, and a quantized voltage value as a binary number of 1 and 0. An analog audio signal may be modulated into a digital signal by performing an encoding process.
컨텐츠 입력부(110)는 제 1 음원(ML) 및 제 2 음원(MR)을 보컬 처리부(120), 저음 추출부(130) 및 드럼 처리부(140)에 전달한다. 이때, 컨텐츠 입력부(110)는 제 1 음원(ML) 및 제 2 음원(MR)이 보컬 처리부(120), 저음 추출부(130) 및 드럼 처리부(140)에 전달되는 시간을 동기화하여 이후 믹싱부(150)에서의 사운드 합성이 시간상으로 일치되도록 할 수 있다. The content input unit 110 transmits the first sound source ML and the second sound source MR to the vocal processing unit 120, the bass extraction unit 130, and the drum processing unit 140. In this case, the content input unit 110 synchronizes the time when the first sound source ML and the second sound source MR are transmitted to the vocal processing unit 120, the bass extraction unit 130, and the drum processing unit 140, and then mixes the mixing unit. Sound synthesis at 150 can be matched in time.
예를 들어, 컨텐츠 입력부(110)는 제 1 음원(ML) 및 제 2 음원(MR)이 재생되는 시간을 복수의 단위 시간으로 나누고, 제 1 음원(ML) 및 제 2 음원(MR)에서 동일한 단위 시간에 대응하는 부분을 동시에 보컬 처리부(120), 저음 추출부(130) 및 드럼 처리부(140)에 전달하여 믹싱부(150)에서의 사운드 합성이 시간상으로 일치되도록 할 수 있다. For example, the content input unit 110 divides the time at which the first sound source ML and the second sound source MR are reproduced into a plurality of unit times, and the same in the first sound source ML and the second sound source MR. A portion corresponding to the unit time may be simultaneously transmitted to the vocal processing unit 120, the bass extraction unit 130, and the drum processing unit 140 so that the sound synthesis in the mixing unit 150 matches in time.
보컬 처리부(120)는 제 1 음원(ML)과 제 2 음원(MR)의 차신호(difference signal)를 구하여 스테레오 영역의 중앙에 위치하는 모노 성분을 제거한다. 보컬 처리부(120)는 제 1 음원(ML)에서 제 2 음원(MR)을 감산하여 모노 성분이 제거된 제 1 처리 음원(ML-V)을 생성할 수 있다. 그리고 보컬 처리부(120)는 제 2 음원(MR)에서 제 1 음원(ML)을 감산하여 모노 성분이 제거된 제 2 처리 음원(MR-V)을 생성할 수 있다. 보컬 처리부(120)는 제 1 처리 음원(ML-V) 및 제 2 처리 음원(MR-V)을 믹싱부(150)에 전달한다. 또는, 보컬 처리부(120)는 제 1 처리 음원(ML-V) 및 제 2 처리 음원(MR-V) 중 어느 하나만을 생성하여 믹싱부(150)에 전달할 수도 있다.The vocal processing unit 120 obtains a difference signal between the first sound source ML and the second sound source MR and removes a mono component located in the center of the stereo region. The vocal processing unit 120 may generate the first processing sound source ML-V from which the mono component is removed by subtracting the second sound source MR from the first sound source ML. The vocal processing unit 120 may generate the second processing sound source MR-V from which the mono component is removed by subtracting the first sound source ML from the second sound source MR. The vocal processing unit 120 transmits the first processing sound source ML-V and the second processing sound source MR-V to the mixing unit 150. Alternatively, the vocal processing unit 120 may generate and transmit only one of the first processing sound source ML-V and the second processing sound source MR-V to the mixing unit 150.
저음 추출부(130)는 음악 컨텐츠(MC)의 저음 성분(S-low)을 추출한다. 저음 추출부(130)는 제 1 음원(ML)과 제 2 음원(MR)의 합신호(sum signal)를 구하고, 합신호를 저역 통과 필터(low pass filter)를 통과시킴으로써, 음악 컨텐츠(MC)의 저음 성분(S-low)을 추출할 수 있다. 저역 통과 필터는 사람의 음성이 갖는 대역폭 이하의 주파수를 갖는 저음 성분을 통과시키는 필터로 구성되어 보컬 성분이 포함되지 않는 저음 성분(S-low)을 추출할 수 있다. 저음 추출부(130)는 저음 성분(S-low)을 믹싱부(150)에 전달한다.The bass extractor 130 extracts a bass component S-low of the music content MC. The bass extractor 130 obtains a sum signal of the first sound source ML and the second sound source MR, and passes the sum signal through a low pass filter to thereby obtain the music content MC. The bass component (S-low) of can be extracted. The low pass filter is composed of a filter that passes a low tone component having a frequency less than or equal to a bandwidth of a human voice to extract a low tone component (S-low) that does not include a vocal component. The bass extraction unit 130 transmits a bass component (S-low) to the mixing unit 150.
킥 드럼(kick drum), 스네어 드럼(snare drum) 및 베이스 기타(base guitar)는 음악의 기본이 되는 것이므로 모노 성분으로 음악 컨텐츠(MC)에 포함된다. 따라서, 보컬 처리부(120)에서 모노 성분을 제거하는 과정에서 킥 드럼(kick drum), 스네어 드럼(snare drum) 및 베이스 기타(base guitar)의 사운드 성분은 대부분 제거된다.Since kick drums, snare drums, and bass guitars are the basis of music, they are included in the music content MC as mono components. Therefore, in the process of removing the mono component from the vocal processing unit 120, the sound components of the kick drum, the snare drum, and the bass guitar are mostly removed.
저음 추출부(130)에서 사람의 음성이 갖는 대역폭 이하의 저음 성분(S-low)을 추출함으로써, 보컬 처리부(120)에서 제거된 킥 드럼, 스네어 드럼 및 베이스 기타의 저음 성분을 복구시킬 수 있다. 저음 추출부(130)를 통해 베이스 기타의 대부분의 사운드는 복구될 수 있으나, 킥 드럼 및 스네어 드럼의 사운드는 충분히 복구되지 않는 면이 있다. 특히, 스네어 드럼의 사운드는 보컬 처리부(120)에서 대부분 제거될 뿐만 아니라 저음 추출부(130)에서 거의 복구되지 않는다.By extracting bass components (S-low) below the bandwidth of the human voice from the bass extractor 130, the bass components of the kick drum, snare drum, bass, etc. removed from the vocal processing unit 120 can be recovered. . Most sounds of the bass guitar may be recovered through the bass extractor 130, but sounds of the kick drum and the snare drum may not be sufficiently recovered. In particular, the sound of the snare drum is not only mostly removed from the vocal processing unit 120 but also hardly recovered from the bass extraction unit 130.
드럼 처리부(140)는 음악 컨텐츠(MC)에서 킥 드럼 성분(KD) 및 스네어 드럼 성분(SD)을 검출하고, 검출된 킥 드럼 성분(KD) 및 스네어 드럼 성분(SD)에 따라 킥 드럼 사운드(KDS) 및 스네어 드럼 사운드(SDS)를 생성한다. 킥 드럼 성분(KD)은 음악 컨텐츠(MC)가 재생되는 시간상에서 킥 드럼의 시간상 위치와 음량 특징을 포함할 수 있다. 스네어 드럼 성분(SD)은 음악 컨텐츠(MC)가 재생되는 시간상에서 스네어 드럼의 시간상 위치와 음량 특징을 포함할 수 있다.The drum processor 140 detects the kick drum component KD and the snare drum component SD in the music content MC, and according to the detected kick drum component KD and the snare drum component SD, the kick drum sound ( KDS) and Snare Drum Sounds (SDS). The kick drum component KD may include the temporal position and volume characteristics of the kick drum in time at which the music content MC is played. The snare drum component SD may include the temporal position and volume characteristics of the snare drum in time at which the music content MC is played.
드럼 처리부(140)는 드럼 검출부(141) 및 드럼 샘플부(142)를 포함한다.The drum processor 140 includes a drum detector 141 and a drum sample unit 142.
드럼 검출부(141)는 음악 컨텐츠(MC)를 실시간으로 분석하여 음악 컨텐츠(MC)에서 드럼의 시간상 위치 및 음량 특징을 검출한다. 이때, 드럼 검출부(141)는 음악 컨텐츠(MC)가 재생되는 시간을 복수의 단위 시간으로 나누고, 단위 시간별로 음악 컨텐츠(MC)의 기본 주파수(fundamental frequency) 및 신호 파형을 추출할 수 있다. 드럼 검출부(141)는 추출된 기본 주파수 및 신호 파형의 엔빌로프 특성을 분석하여 신호 파형이 드럼의 신호 파형인지 여부를 판단한다. 드럼 검출부(141)는 신호 파형이 드럼의 신호 파형인 것으로 판단되면 신호 파형이 추출된 단위 시간을 드럼 포인트로 검출할 수 있다. 즉, 음악 컨텐츠(MC)에서 드럼의 시간상 위치가 검출된다. 그리고 드럼 검출부(141)는 신호 파형이 영교차 라인(zero crossing line)과 이루는 음량 면적을 산출하고, 음량 면적을 기반으로 음량 레벨을 결정하는 음량 계수를 선택할 수 있다. 즉, 음악 컨텐츠(MC)에서 드럼의 음량 특징이 검출된다. The drum detector 141 analyzes the music content MC in real time to detect the position and volume characteristics of the drum in the music content MC. In this case, the drum detector 141 may divide the time at which the music content MC is played back into a plurality of unit times, and extract a fundamental frequency and a signal waveform of the music content MC for each unit time. The drum detector 141 analyzes the envelope characteristic of the extracted fundamental frequency and signal waveform to determine whether the signal waveform is a signal waveform of the drum. If it is determined that the signal waveform is the signal waveform of the drum, the drum detector 141 may detect the unit time from which the signal waveform is extracted as a drum point. That is, the temporal position of the drum in the music content MC is detected. The drum detector 141 may calculate a volume area of the signal waveform formed with a zero crossing line, and select a volume coefficient for determining the volume level based on the volume area. That is, the volume characteristic of the drum is detected in the music content MC.
그리고 드럼 검출부(141)는 신호 파형의 주기를 임계값과 비교하여 신호 파형이 킥 드럼 및 스네어 드럼 중 어느 것의 신호 파형인지 여부를 구분한다. 드럼 검출부(141)는 신호 파형이 킥 드럼의 신호 파형인 것으로 판단되면 킥 드럼의 시간상 위치와 음량 특징을 포함하는 킥 드럼 성분(KD)을 생성한다. 드럼 검출부(141)는 신호 파형이 스네어 드럼의 신호 파형인 것으로 판단되면 스네어 드럼의 시간상 위치와 음량 특징을 포함하는 스네어 드럼 성분(SD)을 생성한다. 드럼 검출부(141)는 킥 드럼 성분(KD) 및 스네어 드럼 성분(SD)을 드럼 샘플부(142)에 전달한다.The drum detection unit 141 compares the period of the signal waveform with a threshold to discriminate whether the signal waveform is a signal waveform of a kick drum or a snare drum. If it is determined that the signal waveform is a signal waveform of the kick drum, the drum detector 141 generates a kick drum component KD including the position and volume characteristics of the kick drum in time. If it is determined that the signal waveform is a signal waveform of the snare drum, the drum detector 141 generates a snare drum component SD including the temporal position and volume characteristics of the snare drum. The drum detector 141 transfers the kick drum component KD and the snare drum component SD to the drum sample unit 142.
드럼 샘플부(142)는 킥 드럼 및 스네어 드럼의 다양한 드럼 사운드 샘플을 저장하고 있다. 드럼 샘플부(142)는 복수의 드럼 사운드 샘플에서 드럼 사운드를 선택한다. 이때, 사용자는 킥 드럼 성분(KD) 및 스네어 드럼 성분(SD)를 확인하고, 드럼 샘플부(142)를 통해 복수의 드럼 사운드 샘플에서 킥 드럼 사운드(KDS) 또는 스네어 드럼 사운드(SDS)를 선택할 수 있다. 즉, 드럼 샘플부(142)는 사용자의 선택에 따라 드럼 사운드를 선택할 수 있다. 또는, 드럼 샘플부(142)는 드럼 사운드 샘플에서 킥 드럼 성분(KD)에 대응하는 킥 드럼 사운드(KDS)를 선택하고, 스네어 드럼 성분(SD)에 대응하는 스네어 드럼 사운드(SDS)를 선택할 수도 있다. The drum sample unit 142 stores various drum sound samples of the kick drum and the snare drum. The drum sample unit 142 selects a drum sound from a plurality of drum sound samples. At this time, the user checks the kick drum component KD and the snare drum component SD, and selects the kick drum sound KDS or the snare drum sound SDS from the plurality of drum sound samples through the drum sample unit 142. Can be. That is, the drum sample unit 142 may select a drum sound according to the user's selection. Alternatively, the drum sample unit 142 may select the kick drum sound KDS corresponding to the kick drum component KD in the drum sound sample, and select the snare drum sound SDS corresponding to the snare drum component SD. have.
드럼 샘플부(142)는 선택된 킥 드럼 사운드(KDS)의 음량을 킥 드럼 성분(KD)에 포함된 음량 계수에 따라 변환하고, 스네어 드럼 사운드(SDS)의 음량을 스네어 드럼 성분(SD)에 포함된 음량 계수에 따라 변환할 수 있다. The drum sample unit 142 converts the volume of the selected kick drum sound KDS according to the volume coefficient included in the kick drum component KD, and includes the volume of the snare drum sound SDS in the snare drum component SD. Can be converted according to the volume coefficient.
드럼 샘플부(142)는 킥 드럼 사운드(KDS) 및 스네어 드럼 사운드(SDS)를 믹싱부(150)에 전달한다.The drum sample unit 142 delivers the kick drum sound KDS and the snare drum sound SDS to the mixing unit 150.
믹싱부(150)는 제 1 처리 음원(ML-V) 및 제 2 처리 음원(MR-V) 중 적어도 어느 하나와, 저음 성분(S-low), 킥 드럼 사운드(KDS) 및 스네어 드럼 사운드(SDS)를 합성하여 가라로케 컨텐츠(KC)를 생성한다. 가라오케 컨텐츠(KC)는 좌 채널의 제 1 가라오케 음원 및 우 채널의 제 2 가라오케 음원 중 적어도 어느 하나를 포함할 수 있다. 제 1 가라오케 음원은 제 1 처리 음원(ML-V), 저음 성분(S-low), 킥 드럼 사운드(KDS) 및 스네어 드럼 사운드(SDS)의 합성으로 생성될 수 있다. 제 2 가라오케 음원은 제 2 처리 음원(ML-R), 저음 성분(S-low), 킥 드럼 사운드(KDS) 및 스네어 드럼 사운드(SDS)의 합성으로 생성될 수 있다. 가라오케 컨텐츠(KC)는 가수의 보컬 성분을 제외한 악기의 반주 성분이 좌 채널 및 우 채널을 통해 전송되는 스테레오 음원으로 생성될 수 있다.The mixing unit 150 may include at least one of the first processing sound source ML-V and the second processing sound source MR-V, a bass component S-low, a kick drum sound KDS, and a snare drum sound ( SDS) is synthesized to generate Karaoke content (KC). The karaoke content KC may include at least one of a first karaoke sound source of the left channel and a second karaoke sound source of the right channel. The first karaoke sound source may be produced by combining the first processing sound source ML-V, the bass component S-low, the kick drum sound KDS, and the snare drum sound SDS. The second karaoke sound source may be generated by combining the second processing sound source ML-R, the bass component S-low, the kick drum sound KDS, and the snare drum sound SDS. The karaoke content KC may be generated as a stereo sound source in which an accompaniment component of the musical instrument except for the singer's vocal component is transmitted through the left channel and the right channel.
제안하는 가라오케 컨텐츠 생성 장치(100)는 보컬 처리부(120), 저음 추출부(130) 및 드럼 처리부(140)에서의 동작을 음악 컨텐츠가 재생되는 시간상에서 동기화하여 수행하고, 믹싱부(150)에서 합성함으로써 실시간으로 음악 컨텐츠(MC)를 가라오케 컨텐츠(KC)로 변환할 수 있다. The proposed karaoke content generating apparatus 100 performs the operations of the vocal processing unit 120, the bass extraction unit 130, and the drum processing unit 140 in synchronization with the time when the music content is played, and in the mixing unit 150. By synthesizing, the music content MC can be converted into karaoke content KC in real time.
이와 같이, 제안하는 가라오케 컨텐츠 생성 장치(100)는 가수의 보컬 성분을 제거하는 과정에서 사라지는 킥 드럼, 스네어 드럼 및 베이스 기타의 사운드를 복구할 수 있다. 음악의 기본이 되는 킥 드럼, 스네어 드럼 및 베이스 기타의 사운드를 복구함으로써 가라오케 컨텐츠(KC)는 원곡의 느낌을 최대한 살릴 수 있게 된다.As described above, the proposed karaoke content generating apparatus 100 may restore the sound of the kick drum, the snare drum, and the bass guitar that disappear in the process of removing the singer's vocal component. By restoring the sound of kick drums, snare drums, and bass guitars that are the basis of music, karaoke content (KC) can maximize the feel of the original song.
이하, 드럼 처리부(140)에서 제 1 음원(ML)과 제 2 음원(MR)에서 킥 드럼 성분(KD) 및 스네어 드럼 성분(SD)을 검출하고, 킥 드럼 사운드(KDS) 및 스네어 드럼 사운드(SDS)를 생성하는 과정에 대하여 더욱 상세하게 설명한다.Hereinafter, the drum processor 140 detects the kick drum component KD and the snare drum component SD in the first sound source ML and the second sound source MR, and detects the kick drum sound KDS and the snare drum sound ( The process of generating SDS) will be described in more detail.
도 2는 본 발명의 일 실시예에 따른 가라오케 컨텐츠 생성 방법을 나타내는 흐름도이다.2 is a flowchart illustrating a method of generating karaoke content according to an embodiment of the present invention.
도 2를 참조하면, 음악 컨텐츠(MC)의 재생되는 시간이 복수의 단위 시간으로 나뉘고, 단위 시간별로 음악 컨텐츠(MC)의 기본 주파수가 추출된다(S110). 일반적으로 드럼 사운드는 모노 성분으로 음악 컨텐츠(MC)에 포함되므로, 제 1 음원(ML) 및 제 2 음원(MR) 중 어느 하나로부터 기본 주파수 및 그 신호 파형이 추출될 수 있다. 경우에 따라서는 제 1 음원(ML) 및 제 2 음원(MR) 각각으로부터 기본 주파수 및 신호 파형이 추출될 수도 있다. Referring to FIG. 2, the playback time of the music content MC is divided into a plurality of unit times, and the basic frequency of the music content MC is extracted for each unit time (S110). In general, since the drum sound is included in the music content MC as a mono component, a fundamental frequency and a signal waveform thereof may be extracted from one of the first sound source ML and the second sound source MR. In some cases, a fundamental frequency and a signal waveform may be extracted from each of the first sound source ML and the second sound source MR.
추출된 기본 주파수 및 신호 파형의 엔빌로프(envelope) 특성이 분석된다(S120). 엔빌로프는 신호 파형의 끝을 서로 연결하여 파형을 둘러싸듯이 그려진 선이다. 각종 악기는 악기 특유의 엔빌로프를 가지고 있으므로, 엔빌로프 특성 분석을 통해 드럼 사운드가 구분될 수 있다. 특히, 엔빌로프의 어택 타임(attack time)을 분석하여 제 1 음원(ML) 및 제 2 음원(MR) 중 어느 하나로부터 드럼 사운드가 구분될 수 있다. 어택 타임은 사운드가 나기 시작해서 최대 음량에 도달하기까지의 시간으로써, 악기의 종류마다 서로 다른 어택 타임을 갖는다.The envelope characteristic of the extracted fundamental frequency and signal waveform is analyzed (S120). Envelopes are lines drawn around the waveform by connecting the ends of the signal waveform to each other. Since various instruments have an envelope unique to the instrument, drum sounds may be distinguished through an envelope characteristic analysis. In particular, the drum sound may be distinguished from any one of the first sound source ML and the second sound source MR by analyzing the attack time of the envelope. Attack time is the time from when the sound starts to reaching the maximum volume, which has a different attack time for each type of instrument.
엔빌로프 특성 분석을 통해 신호 파형이 드럼의 신호 파형인지 여부가 판단된다(S130). 엔빌로프의 어택 타임이 드럼 사운드의 어택 타임에 일치하는지 여부를 판단함으로써 신호 파형이 드럼의 신호 파형인지 여부가 판단될 수 있다. It is determined whether the signal waveform is the signal waveform of the drum through the envelope characteristic analysis (S130). By determining whether the attack time of the envelope coincides with the attack time of the drum sound, it may be determined whether the signal waveform is the signal waveform of the drum.
신호 파형이 드럼 사운드의 신호 파형이 아닌 것으로 판단되는 경우, 다음의 단위 시간에 해당하는 부분의 기본 주파수를 추출하는 과정(S110)이 수행된다.If it is determined that the signal waveform is not the signal waveform of the drum sound, the process of extracting the fundamental frequency of the portion corresponding to the next unit time (S110) is performed.
신호 파형이 드럼 사운드의 신호 파형인 것으로 판단되는 경우, 신호 파형이 추출된 단위 시간이 드럼 포인트로 검출된다(S140). 드럼 포인트는 음악 컨텐츠(MC)가 재생되는 시간 중에서 드럼 사운드가 존재하는 시간을 의미한다. If it is determined that the signal waveform is a signal waveform of the drum sound, the unit time from which the signal waveform is extracted is detected as a drum point (S140). The drum point means a time at which a drum sound exists among the time when the music content MC is played.
드럼 포인트에서 신호 파형이 나타내는 드럼 음량이 검출된다(S150). 음악의 성격에 따라 드럼의 음량이 다르게 존재하는 것이 일반적이다. 또는 하나의 음악 내에서도 드럼의 음량은 연주되는 부분에 따라 제각각이다. 검출된 드럼 포인트에 드럼 사운드를 합성할 때 일정한 음량의 드럼 사운드가 합성된다면 원곡이 가지는 음악적 느낌이 훼손될 수 있다. 따라서, 원곡의 드럼 음량을 검출하여 합성되는 드럼 사운드의 음량을 조절하는 것이 바람직하다. 드럼의 음량은 신호 파형이 영교차 라인과 이루는 음량 면적으로 산출될 수 있다. 음량 면적은 신호 파형의 단위 시간 당 파워값이 비례하므로, 음량 면적으로부터 신호 파형의 단위 시간 당 파워값이 구해진다. The drum volume indicated by the signal waveform is detected at the drum point (S150). It is common for the drum volume to be different depending on the nature of the music. Or even within a piece of music, the volume of the drums varies depending on the part played. When synthesizing the drum sound to the detected drum point, if a constant volume drum sound is synthesized, the musical feeling of the original song may be impaired. Therefore, it is preferable to adjust the volume of the drum sound synthesized by detecting the drum volume of the original music. The volume of the drum may be calculated as the volume area of the signal waveform with the zero crossing line. Since the volume area is proportional to the power value per unit time of the signal waveform, the power value per unit time of the signal waveform is obtained from the volume area.
음량 면적이 산출되면, 음량 면적을 기반으로 드럼 사운드의 음량을 결정하는 음량 계수가 선택될 수 있다. 선택된 음량 계수에 따라 복수의 드럼 사운드 샘플에서 선택되는 드럼 사운드의 음량이 변환될 수 있다. 이에 따라, 합성되는 드럼 사운드는 원곡의 드럼 사운드와 유사한 강도 패턴을 가질 수 있으며, 원곡의 음량 레벨 패턴이 그대로 복원될 수 있다. When the volume area is calculated, a volume coefficient for determining the volume of the drum sound may be selected based on the volume area. The volume of the drum sound selected from the plurality of drum sound samples may be converted according to the selected volume coefficient. Accordingly, the synthesized drum sound may have an intensity pattern similar to that of the original song, and the volume level pattern of the original song may be restored as it is.
기본 주파수의 신호 파형의 주기가 임계값(F)보다 큰지 여부가 판단된다(S160). 대부분의 킥 드럼의 기본 주파수는 대략 10ms의 주기를 갖는 반면, 스네어 드럼의 기본 주파수는 5ms 이하의 주기를 갖는다. 따라서, 신호 파형의 주기가 임계값(F)보다 큰 경우에는 신호 파형이 킥 드럼의 신호 파형인 것으로 판단되고, 신호 파형의 주기가 임계값(F) 이하인 경우에는 신호 파형이 스네어 드럼의 신호 파형인 것으로 판단될 수 있다. 임계값(F)은 다수의 킥 드럼과 스네어 드럼의 사운드의 신호 파형의 주기를 분석함으로써 적절한 값으로 정해질 수 있을 것이다. It is determined whether the period of the signal waveform of the fundamental frequency is larger than the threshold value F (S160). The base frequency of most kick drums has a period of approximately 10 ms, while the base frequency of a snare drum has a period of 5 ms or less. Therefore, when the period of the signal waveform is greater than the threshold value F, the signal waveform is determined to be the signal waveform of the kick drum. When the period of the signal waveform is less than or equal to the threshold value F, the signal waveform is the signal waveform of the snare drum. May be determined to be. The threshold value F may be set to an appropriate value by analyzing the period of the signal waveform of the sound of a number of kick drums and snare drums.
신호 파형의 주기가 임계값(F)보다 큰 경우, 킥 드럼 사운드(KDS)가 생성된다(S170). 이때, 검출된 드럼 포인트 및 드럼의 음량 계수를 포함하는 킥 드럼 성분(KD)이 생성된다. 사용자는 킥 드럼 성분(KD)을 확인하고, 복수의 드럼 사운드 샘플에서 킥 드럼 사운드(KDS)를 선택할 수 있다. 그리고 선택된 킥 드럼 사운드(KDS)의 음량은 킥 드럼 성분(KD)에 포함된 음량 계수에 따라 변환될 수 있다.If the period of the signal waveform is greater than the threshold value F, the kick drum sound KDS is generated (S170). At this time, a kick drum component KD is generated that includes the detected drum point and the volume coefficient of the drum. The user can identify the kick drum component KD and select the kick drum sound KDS from a plurality of drum sound samples. The volume of the selected kick drum sound KDS may be converted according to the volume coefficient included in the kick drum component KD.
또는, 복수의 드럼 사운드 샘플 중에서 신호 파형의 엔빌로프 특성과 가장 유사한 엔빌로프를 가지는 킥 드럼 사운드(KDS)가 선택될 수 있고, 선택된 킥 드럼 사운드(KDS)의 음량이 킥 드럼 성분(KD)에 포함된 음량 계수에 따라 변환될 수 있다.Alternatively, a kick drum sound (KDS) having an envelope most similar to the envelope characteristic of the signal waveform among a plurality of drum sound samples may be selected, and the volume of the selected kick drum sound (KDS) may be selected from the kick drum component (KD). Can be converted according to the included volume coefficient.
기본 주파수의 주기가 임계값(F)이하인 경우, 스네어 드럼 사운드(SDS)가 생성된다(S180). 이때, 검출된 드럼 포인트 및 드럼의 음량 계수를 포함하는 스네어 드럼 성분(SD)이 생성된다. 사용자는 스네어 드럼 성분(SD)을 확인하고, 복수의 드럼 사운드 샘플에서 스네어 드럼 사운드(SDS)를 선택할 수 있다. 그리고 선택된 스네어 드럼 사운드(SDS)의 음량은 스네어 드럼 성분(SD)에 포함된 음량 계수에 따라 변환될 수 있다.When the period of the fundamental frequency is less than or equal to the threshold value F, the snare drum sound SDS is generated (S180). At this time, the snare drum component SD including the detected drum point and the volume coefficient of the drum is generated. The user can identify the snare drum component SD and select the snare drum sound SDS from the plurality of drum sound samples. The volume of the selected snare drum sound SDS may be converted according to the volume coefficient included in the snare drum component SD.
또는, 복수의 드럼 사운드 샘플 중에서 신호 파형의 엔빌로프 특성과 가장 유사한 엔빌로프를 가지는 스네어 드럼 사운드(SDS)가 선택될 수 있고, 선택된 스네어 드럼 사운드(SDS)의 음량이 스네어 드럼 성분(SD)에 포함된 음량 계수에 따라 변환될 수 있다. Alternatively, a snare drum sound SDS having an envelope most similar to the envelope characteristic of a signal waveform among a plurality of drum sound samples may be selected, and the volume of the selected snare drum sound SDS may be selected from the snare drum component SD. Can be converted according to the included volume coefficient.
음악 컨텐츠(MC)의 입력이 종료되는지 여부가 판단된다(S190). 음악 컨텐츠(MC)의 입력이 종료되면, 가라오케 컨텐츠(KC)의 생성 과정이 종료된다. 음악 컨텐츠(MC)의 입력이 종료되지 않고 지속적으로 음악 컨텐츠(MC)가 입력되는 경우, S110 단계부터 S190 단계까지 재수행된다. 즉, 음악 컨텐츠(MC)의 재생이 종료되는 시간까지 단위 시간별로 킥 드럼 사운드(KDS) 및 스네어 드럼 사운드(SDS)를 생성하는 과정이 반복하여 수행될 수 있다.It is determined whether the input of the music content MC is terminated (S190). When the input of the music content MC is finished, the generation process of the karaoke content KC is finished. When the music content MC is continuously input without ending the input of the music content MC, the process is performed again from step S110 to step S190. That is, the process of generating the kick drum sound KDS and the snare drum sound SDS for each unit time may be repeatedly performed until the time when the reproduction of the music content MC ends.
상술한 가라오케 컨텐츠 생성 장치(100)는 컴퓨터, 휴대폰, MP3 플레이어 등의 다양한 전자기기 내에서 프로그램화되어 구현될 수 있고, 스마트폰을 위한 어플리케이션으로 제작되어 어플리케이션 서비스 서버, 저장매체 등에 저장될 수 있다.The above-described karaoke content generating apparatus 100 may be programmed and implemented in various electronic devices such as a computer, a mobile phone, and an MP3 player, and may be produced as an application for a smartphone and stored in an application service server or a storage medium. .
지금까지 참조한 도면과 기재된 발명의 상세한 설명은 단지 본 발명의 예시적인 것으로서, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The detailed description of the invention described with reference to the drawings referred to heretofore is merely exemplary of the invention, which has been used only for the purpose of illustrating the invention and is used to limit the scope of the invention as defined in the meaning or claims. It is not. Therefore, those skilled in the art will understand that various modifications and equivalent other embodiments are possible. Therefore, the true technical protection scope of the present invention will be defined by the technical spirit of the appended claims.

Claims (17)

  1. 좌 채널을 통해 전송되는 제 1 음원 및 우 채널을 통해 전송되는 제 2 음원을 포함하는 음악 컨텐츠의 모노 성분을 제거하여 처리 음원을 생성하는 보컬 처리부;A vocal processing unit generating a processing sound source by removing a mono component of music content including a first sound source transmitted through a left channel and a second sound source transmitted through a right channel;
    상기 음악 컨텐츠의 저음 성분을 추출하는 저음 추출부;A bass extraction unit for extracting bass components of the music contents;
    상기 음악 컨텐츠에서 드럼 성분을 검출하고, 복수의 드럼 사운드 샘플에서 드럼 사운드를 선택하는 드럼 처리부; 및A drum processor which detects a drum component in the music content and selects a drum sound from a plurality of drum sound samples; And
    상기 처리 음원, 상기 저음 성분, 상기 드럼 사운드를 합성하여 가라오케 컨텐츠를 생성하는 믹싱부;를 구비하되,And a mixing unit for synthesizing the processing sound source, the bass component, and the drum sound to generate karaoke content.
    상기 드럼 처리부는 단위 시간별로 상기 음악 컨텐츠의 기본 주파수 및 신호 파형을 추출하고, 상기 신호 파형의 엔빌로프 특성을 분석하여 상기 신호 파형이 드럼의 신호 파형인지 여부를 판단하는 가라오케 컨텐츠 생성 장치.And the drum processor extracts a fundamental frequency and a signal waveform of the music content for each unit time, and analyzes an envelope characteristic of the signal waveform to determine whether the signal waveform is a signal waveform of a drum.
  2. 제 1 항에 있어서,The method of claim 1,
    상기 보컬 처리부는 상기 제 1 음원과 상기 제 2 음원의 차신호를 구하여 상기 음악 컨텐츠의 모노 성분을 제거하는 가라오케 컨텐츠 생성 장치.And the vocal processing unit obtains a difference signal between the first sound source and the second sound source and removes a mono component of the music content.
  3. 제 2 항에 있어서,The method of claim 2,
    상기 보컬 처리부는 상기 제 1 음원에서 상기 제 2 음원을 감산하여 상기 모노 성분이 제거된 제 1 처리 음원을 생성하는 가라오케 컨텐츠 생성 장치.And the vocal processing unit subtracts the second sound source from the first sound source to generate a first processing sound source from which the mono component is removed.
  4. 제 1 항에 있어서,The method of claim 1,
    상기 저음 추출부는 상기 제 1 음원과 상기 제 2 음원의 합신호를 구하고, 상기 합신호를 저역 통과 필터를 통과시켜 상기 음악 컨텐츠의 저음 성분을 추출하는 가라오케 컨텐츠 생성 장치.And the bass extracting unit obtains a sum signal of the first sound source and the second sound source, and extracts a bass component of the music content by passing the sum signal through a low pass filter.
  5. 제 4 항에 있어서,The method of claim 4, wherein
    상기 저역 통과 필터는 사람 음성의 대역폭 이하의 주파수를 갖는 저음 성분을 통과시키는 필터인 가라오케 컨텐츠 생성 장치.The low pass filter is a karaoke content generating device is a filter for passing a bass component having a frequency less than the bandwidth of the human voice.
  6. 제 1 항에 있어서,The method of claim 1,
    상기 드럼 처리부는 상기 신호 파형이 드럼의 신호 파형인 것으로 판단되면 상기 신호 파형이 추출된 단위 시간을 드럼 포인트로 검출하는 가라오케 컨텐츠 생성 장치.And the drum processor detects a unit time from which the signal waveform is extracted as a drum point when it is determined that the signal waveform is a signal waveform of a drum.
  7. 제 1 항에 있어서,The method of claim 1,
    상기 드럼 처리부는 상기 신호 파형이 영교차 라인과 이루는 음량 면적을 산출하고, 상기 음량 면적을 기반으로 음량 레벨을 결정하는 음량 계수를 선택하는 가라오케 컨텐츠 생성 장치.And the drum processor calculates a volume area of the signal waveform with the zero crossing line, and selects a volume coefficient for determining a volume level based on the volume area.
  8. 제 7 항에 있어서,The method of claim 7, wherein
    상기 드럼 처리부는 상기 신호 파형의 주기를 임계값과 비교하여 상기 신호 파형이 킥 드럼 및 스네어 드럼 중 어느 것의 신호 파형인지 여부를 구분하는 가라오케 컨텐츠 생성 장치.And the drum processor is configured to compare the period of the signal waveform with a threshold value to discriminate whether the signal waveform is a signal waveform of a kick drum or a snare drum.
  9. 제 8 항에 있어서,The method of claim 8,
    상기 드럼 처리부는 상기 복수의 드럼 사운드 샘플에서 킥 드럼 사운드 및 스네어 드럼 사운드 중 어느 하나를 선택하고, 선택된 드럼 사운드의 음량을 상기 음량 계수에 따라 변환하는 가라오케 컨텐츠 생성 장치.And the drum processor selects one of a kick drum sound and a snare drum sound from the plurality of drum sound samples, and converts a volume of the selected drum sound according to the volume coefficient.
  10. 좌 채널을 통해 전송되는 제 1 음원 및 우 채널을 통해 전송되는 제 2 음원을 포함하는 음악 컨텐츠의 모노 성분을 제거하여 처리 음원을 생성하는 단계;Generating a processing sound source by removing the mono component of the music content including the first sound source transmitted through the left channel and the second sound source transmitted through the right channel;
    상기 음악 컨텐츠의 저음 성분을 추출하는 단계;Extracting bass components of the music content;
    상기 음악 컨텐츠에서 드럼 성분을 검출하는 단계;Detecting a drum component in the music content;
    복수의 드럼 사운드 샘플에서 드럼 사운드가 선택되는 단계; 및Selecting a drum sound from the plurality of drum sound samples; And
    상기 처리 음원, 상기 저음 성분 및 상기 드럼 사운드를 합성하여 가라오케 컨텐츠를 생성하는 단계;를 포함하되,And synthesizing the processed sound source, the bass component, and the drum sound to generate karaoke content.
    상기 음악 컨텐츠에서 드럼 성분을 검출하는 단계는,Detecting a drum component in the music content,
    단위 시간별로 상기 음악 컨텐츠의 기본 주파수 및 신호 파형을 추출하는 단계; 및Extracting a fundamental frequency and a signal waveform of the music content at unit time; And
    상기 신호 파형의 엔빌로프 특성을 분석하여 상기 신호 파형이 드럼의 신호 파형인지 여부를 판단하는 단계;를 포함하는 가라오케 컨텐츠 생성 방법.And analyzing the envelope characteristic of the signal waveform to determine whether the signal waveform is a signal waveform of a drum.
  11. 제 10 항에 있어서,The method of claim 10,
    상기 처리 음원을 생성하는 단계는,Generating the processing sound source,
    상기 제 1 음원에서 상기 제 2 음원을 감산하여 상기 모노 성분이 제거된 제 1 처리 음원을 생성하는 단계를 포함하는 가라오케 컨텐츠 생성 방법.And subtracting the second sound source from the first sound source to generate a first processed sound source from which the mono component has been removed.
  12. 제 10 항에 있어서,The method of claim 10,
    상기 음악 컨텐츠의 저음 성분을 추출하는 단계는,Extracting the bass component of the music content,
    상기 제 1 음원과 상기 제 2 음원의 합신호를 구하는 단계; 및Obtaining a sum signal of the first sound source and the second sound source; And
    상기 합신호를 저역 통과 필터를 통과시켜 상기 음악 컨텐츠의 저음 성분을 추출하는 단계를 포함하는 가라오케 컨텐츠 생성 방법.And passing the sum signal through a low pass filter to extract bass components of the music content.
  13. 제 10 항에 있어서,The method of claim 10,
    상기 음악 컨텐츠에서 드럼 성분을 검출하는 단계는,Detecting a drum component in the music content,
    상기 신호 파형이 드럼의 신호 파형인 것으로 판단되면, 상기 신호 파형이 추출된 단위 시간을 드럼 포인트로 검출하는 단계를 더 포함하는 가라오케 컨텐츠 생성 방법.If it is determined that the signal waveform is a signal waveform of a drum, detecting the unit time from which the signal waveform has been extracted as a drum point.
  14. 제 10 항에 있어서,The method of claim 10,
    상기 음악 컨텐츠에서 드럼 성분을 검출하는 단계는,Detecting a drum component in the music content,
    상기 신호 파형이 영교차 라인과 이루는 음량 면적을 산출하는 단계; 및Calculating a volume area of the signal waveform with the zero crossing line; And
    상기 음량 면적을 기반으로 음량 레벨을 결정하는 음량 계수를 선택하는 단계를 더 포함하는 가라오케 컨텐츠 생성 방법.Selecting a volume coefficient for determining a volume level based on the volume area.
  15. 제 14 항에 있어서,The method of claim 14,
    상기 음악 컨텐츠에서 드럼 성분을 검출하는 단계는,Detecting a drum component in the music content,
    상기 신호 파형의 주기를 임계값과 비교하여 상기 신호 파형이 킥 드럼 및 스네어 드럼 중 어느 것의 신호 파형인지 여부를 판단하는 단계를 더 포함하는 가라오케 컨텐츠 생성 방법.And comparing the period of the signal waveform with a threshold to determine whether the signal waveform is a signal waveform of a kick drum or a snare drum.
  16. 제 15 항에 있어서,The method of claim 15,
    상기 복수의 드럼 사운드 샘플에서 드럼 사운드가 선택되는 단계는,Selecting a drum sound from the plurality of drum sound samples,
    상기 신호 파형이 상기 킥 드럼의 주파수인 경우, 상기 복수의 드럼 사운드 샘플에서 킥 드럼 사운드가 선택되는 단계; 및Selecting a kick drum sound from the plurality of drum sound samples when the signal waveform is a frequency of the kick drum; And
    상기 킥 드럼 사운드의 음량을 상기 음량 계수에 따라 변환하는 단계를 포함하는 가라오케 컨텐츠 생성 방법.And converting a volume of the kick drum sound according to the volume coefficient.
  17. 제 16 항에 있어서,The method of claim 16,
    상기 복수의 드럼 사운드 샘플에서 드럼 사운드가 선택되는 단계는,Selecting a drum sound from the plurality of drum sound samples,
    상기 신호 파형이 상기 스네어 드럼의 주파수인 경우, 상기 복수의 드럼 사운드 샘플에서 스네어 드럼 사운드가 선택되는 단계; 및Selecting a snare drum sound from the plurality of drum sound samples when the signal waveform is a frequency of the snare drum; And
    상기 스네어 드럼 사운드의 음량을 상기 음량 계수에 따라 변환하는 단계를 포함하는 가라오케 컨텐츠 생성 방법.And converting a volume of the snare drum sound according to the volume coefficient.
PCT/KR2014/001610 2013-02-27 2014-02-27 Apparatus and method for generating karaoke contents WO2014133331A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020130021524 2013-02-27
KR10-2013-0021524 2013-02-27

Publications (1)

Publication Number Publication Date
WO2014133331A1 true WO2014133331A1 (en) 2014-09-04

Family

ID=51428529

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/001610 WO2014133331A1 (en) 2013-02-27 2014-02-27 Apparatus and method for generating karaoke contents

Country Status (1)

Country Link
WO (1) WO2014133331A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266797A (en) * 2004-02-20 2005-09-29 Sony Corp Method and apparatus for separating sound-source signal and method and device for detecting pitch
US20050244019A1 (en) * 2002-08-02 2005-11-03 Koninklijke Phillips Electronics Nv. Method and apparatus to improve the reproduction of music content
JP2007322544A (en) * 2006-05-30 2007-12-13 Funai Electric Co Ltd Music reproducing device
KR20110131403A (en) * 2010-05-31 2011-12-07 동의대학교 산학협력단 Method for extracting non-vocal signal from stereo sound contents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050244019A1 (en) * 2002-08-02 2005-11-03 Koninklijke Phillips Electronics Nv. Method and apparatus to improve the reproduction of music content
JP2005266797A (en) * 2004-02-20 2005-09-29 Sony Corp Method and apparatus for separating sound-source signal and method and device for detecting pitch
JP2007322544A (en) * 2006-05-30 2007-12-13 Funai Electric Co Ltd Music reproducing device
KR20110131403A (en) * 2010-05-31 2011-12-07 동의대학교 산학협력단 Method for extracting non-vocal signal from stereo sound contents

Similar Documents

Publication Publication Date Title
JP7243052B2 (en) Audio extraction device, audio playback device, audio extraction method, audio playback method, machine learning method and program
Yamada et al. A rhythm practice support system with annotation-free real-time onset detection
US20110036231A1 (en) Musical score position estimating device, musical score position estimating method, and musical score position estimating robot
WO2009123409A2 (en) Method and apparatus for generating additional information bit stream of multi-object audio signal
US8093484B2 (en) Methods, systems and computer program products for regenerating audio performances
WO2019117362A1 (en) System for synchronizing accompaniment with singing voice in online karaoke service and apparatus for performing same
WO2014003513A1 (en) Apparatus and method for evaluating a source of sound from user
KR101455090B1 (en) Method and apparatus for matching key between a reproducing music and a performing music
KR101840015B1 (en) Music Accompaniment Extraction Method for Stereophonic Songs
WO2020015411A1 (en) Method and device for training adaptation level evaluation model, and method and device for evaluating adaptation level
Buyens et al. A stereo music preprocessing scheme for cochlear implant users
US10298192B2 (en) Sound processing device and sound processing method
KR102212409B1 (en) Method and apparatus for generating audio signal and vibration signal based on audio signal
WO2020171614A1 (en) Haptic signal generating method and device using audio signal pattern
WO2014133331A1 (en) Apparatus and method for generating karaoke contents
WO2015093668A1 (en) Device and method for processing audio signal
KR101352758B1 (en) Apparatus for generating karaoke contents and method thereof
Stöter et al. Unison Source Separation.
Sebastian et al. Onset Detection in Composition Items of Carnatic Music.
KR20160141070A (en) apparatus for music playing by using image, method for music playing by using image and storage medium for music playing by using image
CN117295004B (en) Method, device and sound system for converting multichannel surround sound
Rodrigo et al. Identification of Music Instruments from a Music Audio File
Barry Real-time sound source separation for music applications
KR100789588B1 (en) Method for mixing music file and terminal using the same
WO2024034118A1 (en) Audio signal processing device, audio signal processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14757708

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14757708

Country of ref document: EP

Kind code of ref document: A1