WO2015152586A1 - 유사도판별장치 및 그 동작 방법 - Google Patents

유사도판별장치 및 그 동작 방법 Download PDF

Info

Publication number
WO2015152586A1
WO2015152586A1 PCT/KR2015/003112 KR2015003112W WO2015152586A1 WO 2015152586 A1 WO2015152586 A1 WO 2015152586A1 KR 2015003112 W KR2015003112 W KR 2015003112W WO 2015152586 A1 WO2015152586 A1 WO 2015152586A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
pitch
similarity
mantissa
pitch change
Prior art date
Application number
PCT/KR2015/003112
Other languages
English (en)
French (fr)
Inventor
백승빈
Original Assignee
(주) 엠티콤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 엠티콤 filed Critical (주) 엠티콤
Publication of WO2015152586A1 publication Critical patent/WO2015152586A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the present invention relates to a method for determining the similarity between a singer voice and a vocal voice by analyzing the unique habits and the creation methods of the singer voice and the vocal voice and comparing them with each other.
  • sound editing and stream services are being developed in various forms, which can be provided not only in fixed terminals such as personal computers (PCs) but also through mobile terminals possessed by users.
  • PCs personal computers
  • the user's voice capability is evaluated by comparing the user's voice which is the singer's voice with the user's voice which is called along with the singer's voice.
  • a relatively simple item such as pitch, time signature, and tempo is compared with the singer voice and the user's voice to evaluate the user's fluency ability. It may act as a factor that lowers the reliability.
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to analyze the unique habits and methods of the singer voice and the vocal voice, and compare them with each other to determine the accuracy of similarity between the singer voice and the vocal voice. To greatly improve.
  • the determination unit when the detected pitch change includes the harmonic component harmonics and formants, which are pitch changes of the peak values of the harmonics, the first harmonics of the mantissa and the vocal voice respectively. As the frequency difference between the peak and the peak of the first formant is the same, it is determined that the similarity between the mantissa and the spoken voice is higher.
  • the detected pitch change includes up-banding in the form of a pitch change from a first start pitch to a first target pitch higher than the first start pitch information, and a second lower than the second start pitch information from the second start pitch. And at least one pitch change of the down banding in the form of a pitch change to a target pitch, and a vibration in the form of a pitch change in which high and low pitches are repeated.
  • the determination unit determines that the similarity between the mantissa voice and the spoken voice is higher as the pitch change form of the at least one of the up banding and the down banding between the mantissa voice and the spoken voice is matched with each other. It is characterized by.
  • the determination unit the less the difference in the number of times the high and low pitches are repeated between the vibration of the mantissa voice and the vocal vocalization, or the smaller the difference in amplitude that the high and low pitches are repeated, the mantissa It is characterized in that the similarity between the voice and the spoken voice is high.
  • the pitch change of each mantissa voice from each of the similarity judgment graphs Detecting the average value for, and compares the average value for the pitch change with the pitch change detected from the speech sound.
  • the detection unit is characterized by detecting the average value of the pitch change by giving a higher weight to the song containing the live singer voice of the two or more songs.
  • a method of operating a similarity determination apparatus comprising: generating a similarity determination graph by concatenating frequency peak values detected from each of a mantissa voice and a spoken voice; Detecting a pitch change for each of the mantissa voice and the stool voice in the similarity determination section specified in the similarity determination graph; And determining a similarity between the mantissa and the spoken voice by comparing the pitch change of the mantissa and the pitch change of the spoken voice.
  • the determining step when the detected pitch change includes the harmonic component harmonics and formant, the pitch change of the peak values of the harmonics, the first harmonics in each of the mantissa and the vocal voice
  • the pitch change when the detected pitch change includes the harmonic component harmonics and formant, the pitch change of the peak values of the harmonics, the first harmonics in each of the mantissa and the vocal voice.
  • the pitch of the respective voice voices from each of the similarity judgment graphs is detected, and the average value of the change of the pitch is compared with the pitch change detected from the speech sound.
  • the detecting step is characterized by detecting the average value of the pitch change by giving a higher weight to the song containing the live singer voice of the two or more songs.
  • the similarity discrimination apparatus and its operation method of the present invention by analyzing the unique habits and methods of each of the singer voice and the vocal voice and comparing them with each other, the accuracy in determining the similarity between the singer voice and the vocal voice can be greatly improved. Can be.
  • FIG. 1 is a schematic configuration diagram of a similarity determination apparatus according to an embodiment of the present invention.
  • FIG. 2 is a view for explaining the formant (Formant) according to an embodiment of the present invention.
  • FIG. 3 is a view for explaining up banding (Up Banding) according to an embodiment of the present invention.
  • Down Banding Down Banding
  • FIG. 5 is a view for explaining the vibration (Vibration) according to an embodiment of the present invention.
  • Figure 6 is a flow chart for explaining the operation flow in the similarity determination apparatus according to an embodiment of the present invention.
  • FIG. 1 is a view showing the configuration of a similarity discrimination apparatus according to an embodiment of the present invention.
  • the similarity determination device As shown in Figure 1, the similarity determination device according to an embodiment of the present invention, the extraction unit 100 for extracting the singer voice and the vocal voice from each song, the similarity determination for each of the extracted singer voice and mock voice A similarity is determined by comparing the generation unit 200 for generating a graph, the detection unit 300 for detecting a pitch change for each of the mantissa voice and the spoken voice from the similarity determination graph, and the pitch change between the mantissa voice and the spoken voice. It has a configuration including a determination unit 400 to.
  • all or part of the configuration of the similarity discrimination apparatus including the extractor 100, the generator 200, the detector 300, and the determiner 400 may be implemented as a hardware or software module form, or between them. It can be implemented by a combination.
  • the above-described configuration of the similarity determination apparatus according to an embodiment of the present invention may be implemented through an application, and as the similarity determination apparatus, a terminal capable of installing and executing an application may correspond.
  • the similarity determination device may be a smart phone, a personal computer, a notebook computer, a tablet PC, and the like, and the device that is not limited thereto may be installed and executable.
  • the user to determine the similarity between the singer voice and the vocal voice with respect to the mock service that can follow and evaluate the voice and the method of the singer It will work.
  • the singer voice refers to the voice of the singer who sang the song
  • the spoken voice refers to the voice of the user who sings the song by simulating the singer's voice
  • the similarity between the singer voice and the vocal voice may be determined by analyzing the unique habits and methods of the singer voice and the vocal voice, and comparing the analyzed results with each other.
  • the singer's voice and vocal voice's similarity will be kept at the level of evaluating how well the original song was sung. It would be far less than the level of analyzing the unique habits and methods of speech and vocal voice.
  • an embodiment of the present invention proposes a method for determining similarity by analyzing unique habits or creation methods of singer voices and vocal voices, which will be described in detail below.
  • the extraction unit 100 performs a function of extracting the singer voice and the vocal voice from each song.
  • the extractor 100 extracts the singer voice from the song # 1 recorded by the singer, and extracts the vocal voice from the recorded song # 2, which simulates the singer's voice. do.
  • each song in which the singer voice and the vocal voice are recorded is input in a compressed form, for example, in the form of an 'MP3' file, and the extractor 100 decompresses each of the inputted songs. After converting to ',' PCM 'form, the mantissa voice and the vocal voice are extracted.
  • the extractor 100 extracts the singer voice and the vocal voice recorded in each song by applying a series of noise reduction methods.
  • the extraction unit 100 may extract the singer voice and the vocal voice by applying a method of removing the frequency characteristics corresponding to the instrument sound.
  • an instrument sound unlike a voice, it has a sharp frequency characteristic, and if only the frequency characteristic is removed as noise, it is possible to extract the singular voice and the vocal voice of which the instrument has been removed from each song.
  • the generation unit 200 performs a function of generating a similarity determination graph for each of the mantissa voice and the spoken voice.
  • the generation unit 200 detects the frequency peak values for each of the mantissa voice and the spoken voice when the extraction unit 100 extracts the mantissa voice and the spoken voice from each song, and detects each detected peak value.
  • the similarity judgment graph is generated by connecting them.
  • the generation unit 200 for example, by applying an algorithm such as FFT (Fast Fourier Transformation), the frequency peak on the basis of the frequency domain (time) and time (domain) for each of the mantissa voice and the vocal voice that is a voice analog signal
  • FFT Fast Fourier Transformation
  • the detector 300 performs a function of detecting a change in pitch from the similarity determination graph.
  • the detection unit 300 detects a pitch change for each of the mantissa and the spoken speech from the similarity determination graph when the generation of the similarity determination graph for each of the mantissa voice and the spoken voice is completed in the generation unit 200. .
  • the detector 300 may detect a pitch change over the entire range of the similarity determination graph on the basis of the time domain, but in order to improve the accuracy of the similarity determination, designate a predetermined time period as the similarity determination section, Detects the pitch change for each of the designated similarity judgment sections.
  • the tempo may be extracted from a plurality of songs having the same tempo as the major or minor.
  • the generation unit 200 when the singer voices are extracted from a plurality of songs, the generation unit 200 generates a similarity determination graph for each of the singer voices extracted from each song. In this case, the detection unit 300 determines the similarity determination designated to each similarity determination graph. The average value of the pitch change with respect to the mantissa in the interval is detected and compared with the pitch change detected in the spoken voice.
  • the pitch change patterns of each other are assigned to the same or similar sections.
  • the detection unit 300 weights each mantissa voice in detecting the average value of the pitch change with respect to the mantissa voice, and gives a higher weight to the live voice of each mantissa voice.
  • detecting the average value of the pitch change of a singer voice extracted from a plurality of songs is intended to generalize the singular voice's unique habits and methods, and in particular, a high weight is given to the live voice, where the live voice is a singer's unique habit. Or to reflect more of the method of creation.
  • the pitch change detected from the similarity determination section may include a formant in the mantissa voice and the vocal voice, respectively, an up banding, a down banding, and a vibration identified from the pitch change.
  • the formant refers to the harmonic component Harmonic and the pitch change of the peak values of the harmonic, and is associated with each tone of the mantissa and the vocal voice.
  • the peaks of the contours connecting the peaks of the frequency spectrums are sequentially lowered to the first formant, the second formant, and the third formant ( 3rd Formant).
  • Up banding refers to the form of pitch change from a specified starting pitch to a target pitch that is higher than the starting note, and, conversely, in the case of down banding, from a specified starting pitch to a target pitch designated as the lower note. Refers to the form of pitch change to reach.
  • the pitch is raised or lowered uniformly from the starting pitch to the target pitch, or gradually rises or falls from the starting pitch to the target pitch, then gradually rises or falls toward the target pitch, or from the starting pitch portion.
  • Vibration refers to a form of pitch change in which high and low pitches are repeated, and the number of repetitions of the high and low pitches may vary due to unique habits or creation methods.
  • the determination unit 400 determines the similarity between the mantissa voice and the spoken voice.
  • the determination unit 400 compares the detected pitch change with each other to determine the similarity between the mantissa voice and the spoken voice.
  • the determination unit 400 may determine the similarity between the mantissa voice and the spoken voice by comparing the formant, the up banding, the down banding, and the vibration between the mantissa voice and the spoken voice.
  • the determination unit 400 determines the first tone of the first formant (1st Formant) and the first harmonic (1st) that determine the tone of the individual in the mantissa voice and the vocal voice respectively. Harmonic) checks the frequency difference (d), and the higher the similarity between the identified frequency difference between the mantissa voice and the vocal voice, the higher the similarity, on the contrary, it can be determined that the similarity is lower.
  • the determination unit 400 checks the shape of the pitch change to reach the target pitch 'la' from the starting pitch 'degree' in the mantissa voice and the vocal voice respectively.
  • the more similar the shape of the pitch change between the mantissa and the spoken voice the higher the similarity, and conversely, the more different the difference, it can be determined that the similarity is low.
  • the determination unit 400 determines the pitch change reaching from 'degree', which is the starting pitch, to 'a', which is one octave lower target pitch, in the mantissa voice and the vocal voice, respectively.
  • the shape is confirmed, and the similarity between the shape of the pitch change between the mantissa and the spoken voice coincides with each other, and the similarity is higher.
  • the determination unit 400 divides the entire time period into unit time sections, and between the mantissa voice and the vocal voice for each unit time section.
  • the average value of the result of comparing the pitches can be determined as the similarity in the entire time interval.
  • the determination unit 400 checks the number of times the pitch is high and low in the mantissa voice and the vocal voice, and the number of repetitions confirmed between the mantissa voice and the vocal voice The more similar to each other, the higher the similarity. On the contrary, as the number of repetitions increases with each other, it may be determined that the similarity is low.
  • the similarity may be determined by comparing not only the number of times the high and low pitches are repeated but also the magnitudes of the amplitudes, in which the high and low pitches are repeated.
  • the similarity determination apparatus generates a similarity determination graph by connecting frequency peak values to each of the mantissa voice and the vocal voice, and in the similarity determination section specified in the similarity determination graph.
  • the accuracy in determining the similarity between the mantissa and the spoken voice can be greatly improved by detecting a pitch change for each of the mantissa and the spoken voice, and comparing the unique habits and methods of each of the mantissa and the spoken voice.
  • FIGS. 1 to 5 the configuration shown in FIGS. 1 to 5 described above will be described with reference to the corresponding reference numerals.
  • the extractor 100 extracts the singer voice from the song # 1 in which the singer has recorded the voice, and extracts the vocal voice from the song # 2 in which the user voice mimics the singer's voice (S100). ).
  • each song in which the singer voice and the voice voice are recorded is input in a compressed form, for example, in the form of an 'MP3' file, and the extractor 100 decompresses each inputted song so that, for example, After the conversion to WAV ',' PCM 'form, the mantissa voice and the vocal voice are extracted.
  • each song is recorded with the sound of the instrument in addition to the voice to be extracted, the extraction unit 100 is applied to remove the mantissa voice and vocal voice by applying a series of noise reduction method to remove the frequency characteristics corresponding to the instrument sound Can be.
  • the generation unit 200 detects the frequency peak values for each of the mantissa voice and the spoken voice when the extraction unit 100 extracts the mantissa voice and the spoken voice from each song, and detects each detected peak value. By connecting to generate a similarity determination graph (S200).
  • the generation unit 200 for example, by applying an algorithm such as FFT (Fast Fourier Transformation), the frequency peak on the basis of the frequency domain (time) and time (domain) for each of the mandatory voice and the vocal voice of the analog voice signal
  • FFT Fast Fourier Transformation
  • the detection unit 300 detects a pitch change for each of the mantissa and the spoken voices from the similarity determination graph when the generation of the similarity determination graph for each of the mantissa voice and the spoken voice is completed in the generation unit 200 ( S300-S400).
  • the detector 300 may detect a pitch change over the entire range of the similarity determination graph on the basis of the time domain, but in order to improve the accuracy of the similarity determination, designate a predetermined time period as the similarity determination section, Detects the pitch change for each of the designated similarity judgment sections.
  • the generation unit 200 when a singer voice is extracted from a plurality of songs, the generation unit 200 generates a similarity determination graph for each of the singer voices extracted from each song. In this case, the detection unit 300 determines the similarity degree assigned to each similarity determination graph. The average value of the pitch change with respect to the mantissa voice in the determination section is detected and compared with the pitch change detected in the spoken voice (S300 and S500).
  • the detection unit 300 weights each mantissa voice in detecting the average value of the pitch change with respect to the mantissa voice, and gives a higher weight to the live voice of each mantissa voice.
  • detecting the average value of the pitch change of a singer voice extracted from a plurality of songs is intended to generalize the singular voice's unique habits and methods, and in particular, a high weight is given to the live voice. Or to reflect more of the method of creation.
  • the determination unit 400 compares the detected pitch change with each other to determine the similarity between the mantissa voice and the spoken voice (S600-S800).
  • the determination unit 400 may determine the similarity between the mantissa and the spoken voice by comparing the formant (voice), the up banding, the down banding, and the vibration between the mantissa and the spoken voice.
  • a frequency difference d between a first formant and a first harmonic that determines an individual tone in each of a mantissa voice and a vocal voice is identified.
  • the more similar the frequency difference between the mantissa and the spoken voice the higher the similarity, and conversely, the higher the difference, it can be determined that the similarity is low.
  • the shape of the pitch change that reaches the target pitch 'd' from the starting pitch 'degree' in each of the mantissa voice and the vocal voice is checked, and is confirmed between the mantissa voice and the vocal voice.
  • the shape of the pitch change is reached from the starting pitch 'degree' to the target pitch 'ra' one octave lower in the mantissa voice and the vocal voice, respectively.
  • the more similar the shape of the pitch change between the spoken voices the higher the similarity.
  • the more similar the differences the lower the similarity.
  • a similarity determination graph is generated by connecting frequency peak values with respect to each of the mantissa voice and the spoken voice, and the similarity degree specified in the similarity determination graph. It is possible to greatly improve the accuracy in determining the similarity between the singer voice and the vocal voice by detecting the pitch change for each of the mantissa and the vocal voice in the judgment section and comparing the unique habits and methods of the singer voice and the vocal voice. Can be.
  • the steps of the method or algorithm described in connection with the embodiments presented herein may be embodied directly in hardware or in the form of program instructions that may be executed by various computer means and recorded on a computer-readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Magneto-optical media and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
  • the similarity between the mantissa voice and the spoken voice is distinguished by analyzing the unique habits or the creation methods of the mantissa voice and the stool voice and comparing them with each other, thereby surpassing the limitations of the existing technology.
  • the invention is an industrially applicable invention because it is not only sufficient for the use of the related technology but also the possibility of marketing or sales of the applied device as well as practically obvious.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

본 발명은 유사도판별장치 및 그 동작 방법을 개시한다. 즉, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하고, 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하여 가수음성과 모창음성 각각의 독특한 습관이나 창법을 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하는데 있어서의 정확도를 크게 향상시킬 수 있다.

Description

유사도판별장치 및 그 동작 방법
본 발명은 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 이를 서로 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하기 위한 방안에 관한 것이다.
음원과 관련된 컴퓨팅기술의 발전과 더불어 멀티미디어 기술의 발전은 다양한 형태의 미디어 서비스가 가능하게 하고, 또한 그로 인한 비즈니스 모델이 가능하게 하고 있다.
특히 음원에 대한 편집 및 스트림 서비스 등이 다양한 형태로 발전하고 있으며, 이는 개인용컴퓨터(PC)와 같은 고정형 단말기에서뿐만 아니라 사용자들이 소지하고 있는 이동단말기를 통해서도 제공받을 수 있게 되었다.
최근에는 음원과 관련된 서비스로서 사용자들이 가수의 목소리 및 창법을 따라 하고 이를 평가할 수 있는 모창 서비스가 각광받고 있는 추세이다.
이러한 모창 서비스의 경우, 가수의 음성인 가수음성과 가수음성을 따라 부른 사용자의 음성인 모창음성을 서로 비교함으로써 사용자의 모창 능력을 평가하는 방식으로 이루어지게 된다.
헌데, 기존 모창 서비스에서는 예컨대, 음정, 박자, 템포 등의 비교적 단순한 항목에 대하여 가수음성과 모창음성을 서로 비교하여 사용자의 모창 능력을 평가하게 되는데, 이러한 단순한 비교 항목은 결국 모창 능력 평가 결과에 대한 신뢰성을 저하시키는 요인으로 작용될 수 있다.
본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 이를 서로 비교함으로써 가수음성과 모창음성 간의 유사도 판별의 정확도를 크게 향상시키는데 있다.
상기 목적을 달성하기 위한 본 발명의 제 1 관점에 따른 유사도판별장치는 가수음성 및 모창음성 각각으로부터 검출되는 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하는 생성부; 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하는 검출부; 및 상기 가수음성의 피치 변화와 상기 모창음성의 피치 변화를 비교하여 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 판별부를 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 판별부는, 상기 검출된 피치 변화에 고조파 성분인 배음 및 상기 배음의 피크 값들의 피치 변화인 포르만트가 포함되는 경우, 상기 가수음성 및 상기 모창음성 각각에서의 첫 번째 배음의 피크와 첫 번째 포르만트의 피크 간의 주파수 차이가 서로 동일할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 한다.
보다 구체적으로, 상기 검출된 피치 변화에는, 제1시작 음정으로부터 상기 제1시작 음정보다 높은 제1목표 음정까지의 피치 변화 형태인 업 밴딩, 제2시작 음정으로부터 상기 제2시작 음정보다 낮은 제2목표 음정까지의 피치 변화 형태인 상기 다운 밴딩, 및 음정의 높고 낮음이 반복되는 피치 변화의 형태인 바이브레이션 중 적어도 하나의 음정 변화가 포함되는 것을 특징으로 한다.
보다 구체적으로, 상기 판별부는, 상기 가수음성 및 상기 모창음성 간에, 상기 업 밴딩, 및 상기 다운 밴딩 중 적어도 하나의 피치 변화 형태가 서로 일치할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 한다.
보다 구체적으로, 상기 판별부는, 상기 가수음성의 바이브레이션 및 상기 모창음성의 바이브레이션 간에, 음정의 높고 낮음이 반복되는 횟수 차이가 적거나, 또는 상기 음정의 높고 낮음이 반복되는 진폭 차이가 적을수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 한다.
보다 구체적으로, 상기 검출부는, 템포가 서로 일치하며, 각각의 가수음성이 포함된 2 이상의 노래에 대하여, 상기 유사도판단그래프가 각각 생성되는 경우, 상기 각각의 유사도판단그래프로부터 각 가수음성의 피치 변화에 대한 평균값을 검출하여, 상기 피치 변화에 대한 평균값을 상기 모창음성으로부터 검출된 피치 변화와 비교하도록 하는 것을 특징으로 한다.
보다 구체적으로, 상기 검출부는, 상기 2 이상의 노래 중 라이브 가수음성이 포함된 노래에 보다 높은 가중치를 부여하여 상기 피치 변화의 평균값을 검출하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 제 2 관점에 따른 유사도판별장치의 동작 방법은, 가수음성 및 모창음성 각각으로부터 검출되는 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하는 생성단계; 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하는 검출단계; 및 상기 가수음성의 피치 변화와 상기 모창음성의 피치 변화를 비교하여 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 판별단계를 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 판별단계는, 상기 검출된 피치 변화에 고조파 성분인 배음 및 상기 배음의 피크 값들의 피치 변화인 포르만트가 포함되는 경우, 상기 가수음성 및 상기 모창음성 각각에서의 첫 번째 배음의 피크와 첫 번째 포르만트의 피크 간의 주파수 차이가 서로 동일할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 한다.
보다 구체적으로, 상기 검출단계는, 템포가 서로 일치하며, 각각의 가수음성이 포함된 2 이상의 노래에 대하여, 상기 유사도판단그래프가 각각 생성되는 경우, 상기 각각의 유사도판단그래프로부터 각 가수음성의 피치 변화에 대한 평균값을 검출하여, 상기 피치 변화에 대한 평균값을 상기 모창음성으로부터 검출된 피치 변화와 비교하도록 하는 것을 특징으로 한다.
보다 구체적으로, 상기 검출단계는, 상기 2 이상의 노래 중 라이브 가수음성이 포함된 노래에 보다 높은 가중치를 부여하여 상기 피치 변화의 평균값을 검출하는 것을 특징으로 한다.
이에, 본 발명의 유사도판별장치 및 그 동작 방법에 의하면, 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 이를 서로 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하는데 있어서의 정확도를 크게 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 유사도판별장치의 개략적인 구성도.
도 2는 본 발명의 일 실시예에 따른 포르만트(Formant)를 설명하기 위한 도면.
도 3은 본 발명의 일 실시예에 따른 업 밴딩(Up Banding)을 설명하기 위한 도면.
도 4는 본 발명의 일 실시예에 따른 다운 밴딩(Down Banding)을 설명하기 위한 도면.
도 5는 본 발명의 일 실시예에 따른 바이브레이션(Vibration)을 설명하기 위한 도면.
도 6은 본 발명의 일 실시예에 따른 유사도판별장치에서의 동작 흐름을 설명하기 위한 순서도.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 대하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 유사도판별장치의 구성을 도시한 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 유사도판별장치는, 각 노래로부터 가수음성 및 모창음성을 추출하는 추출부(100), 추출된 가수음성 및 모창음성 각각에 대한 유사도판단그래프를 생성하는 생성부(200), 유사도판단그래프로부터 가수음성 및 모창음성 각각에 대한 피치(Pitch) 변화를 검출하는 검출부(300), 및 가수음성 및 모창음성 간의 피치 변화를 비교하여 유사도를 판별하는 판별부(400)를 포함하는 구성을 갖는다.
여기서, 추출부(100), 생성부(200), 검출부(300), 및 판별부(400)를 포함하는 유사도판별장치의 구성 전체 내지는 그 일부는, 하드웨어 또는 소프트웨어 모듈 형태로서 구현되거나, 이들 간의 조합에 의해서 구현될 수 있다.
예를 들어, 본 발명의 일 실시예에 따른 유사도판별장치의 전술한 구성의 경우 애플리케이션을 통해서 구현할 수 있는데, 이에 유사도판별장치로서는 애플리케이션을 설치 및 실행할 수 있는 단말이 해당될 수 있다.
이에, 유사도판별장치는 스마트폰, 개인용컴퓨터, 노트북, 및 테블릿 PC 등이 해당될 수 있으며, 이에 제한되는 것이 아닌 애플리케이션의 설치 및 실행 가능한 장치는 모두 포함될 수 있을 것이다.
한편, 본 발명의 일 실시예에 따른 유사도판별장치의 경우, 사용자(서비스 이용자)들이 가수의 목소리 및 창법을 따라 하고 이를 평가할 수 있는 모창 서비스와 관련하여, 가수음성과 모창음성 간의 유사도를 판별하도록 동작하게 된다.
여기서, 가수음성은 노래를 부른 가수의 음성을 일컫는 것이며, 모창음성은 가수의 음성을 모사하여 노래를 부르는 사용자의 음성을 일컫게 된다.
실질적으로 가수음성과 모창음성 간의 유사도를 판별은 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여, 분석된 결과를 서로 비교함으로써 이루어질 수 있을 것이다.
헌데, 음원과 관련된 컴퓨팅기술의 발전과 더불어 멀티미디어 기술의 발전에도 불구하고, 가수음성과 모창음성 간의 유사도를 판별하기 위한 기존 방식의 경우, 예컨대, 음정, 박자, 템포 등의 비교적 단순한 항목에 대하여 가수음성과 모창음성을 서로 비교하는 수준에 머무르고 있는 것이 현실이다.
이처럼, 음정, 박자, 템포 등 비교적 단순한 항목에 대하여 가수음성과 모창음성을 비교하는 기존 방식의 경우, 가수음성과 모창음성 간의 유사도보다는 원곡을 얼마나 잘 따라 불렀는지 평가하는 수준에 머무른다 할 것이며, 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하는 수준에는 크게 미치지 못한다 할 것이다.
이에, 본 발명의 일 실시예에서는 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 유사도를 판별하기 위한 방안을 제안하고자 하며, 이하에서는 이를 구체적으로 설명하기로 한다.
우선, 추출부(100)는 각 노래로부터 가수음성 및 모창음성을 추출하는 기능을 수행한다.
보다 구체적으로, 추출부(100)는 가수가 음성이 녹음된 노래(#1)로부터 가수음성을 추출하고, 가수의 음성을 모사한 사용자 음성이 녹음된 노래(#2)로부터 모창음성을 추출하게 된다.
여기서, 가수음성과 모창음성이 녹음되어 있는 각 노래는 압축된 형태인 예컨대, 'MP3' 파일 형태로서 입력되게 되는데, 추출부(100)는 이렇게 입력된 각 노래의 압축을 해제하여 예컨대, 'WAV', 'PCM' 형태로 변환한 이후에 가수음성 및 모창음성을 추출하게 된다.
이때, 추출부(100)는 일련의 노이즈 제거 방식을 적용함으로써 각 노래에 녹음되어 있는 가수음성 및 모창음성을 추출하게 된다.
즉, 각 노래에는 추출하고자 하는 음성 이외에 악기의 소리가 함께 녹음되는데, 추출부(100)는 악기 소리에 해당하는 주파수 특성을 제거하는 방식을 적용하여 가수음성과 모창음성을 추출할 수 있다.
예를 들어, 악기 소리의 경우 음성과는 달리 첨예한 주파수 특성을 갖게 되며, 이러한 주파수 특성만을 노이즈로서 제거하게 되면, 각 노래에서 악기 소기가 제거된 가수음성 및 모창음성을 추출할 수 있는 것이다.
그리고, 생성부(200)는 가수음성 및 모창음성 각각에 대한 유사도판단그래프를 생성하는 기능을 수행한다.
보다 구체적으로, 생성부(200)는 추출부(100)에서 각 노래로부터 가수음성과 모창음성의 추출이 완료되면, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결하여 유사도판단그래프를 생성하게 된다.
이때, 생성부(200)는 예컨대, FFT(Fast Fourier Transformation) 등의 알고리즘을 적용하여 음성 아날로그 신호인 가수음성 및 모창음성 각각에 대하여 주파수 도메인(domain)과 시간(time) 도메인을 기준으로 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결함으로써 유사도판단그래프를 생성하게 된다.
그리고, 검출부(300)는 유사도판단그래프로부터 피치(Pitch) 변화를 검출하는 기능을 수행한다.
보다 구체적으로, 검출부(300)는 생성부(200)에서 가수음성 및 모창음성 각각에 대한 유사도판단그래프의 생성이 완료되면, 유사도판단그래프로부터 가수음성 및 모창음성 각각에 대한 피치 변화를 검출하게 된다.
이때, 검출부(300)는 시간 도메인을 기준으로 유사도판단그래프의 전 구간에 걸쳐 피치 변화를 검출할 수 있으나, 유사도 판별의 정확도를 향상시키기 위한 측면에서, 일정 시간구간을 유사도판단구간으로서 지정하여, 지정된 유사도판단구간마다의 피치 변화를 검출한다.
한편, 가수음성의 경우, 장조 또는 단조로서 그 템포가 일치하는 다수의 노래로부터 추출될 수 있다.
이처럼 다수의 노래로부터 가수음성이 추출된 경우 생성부(200)에서는 각 노래로부터 추출된 가수음성 각각에 대한 유사도판단그래프를 생성하게 되는데, 이 경우 검출부(300)는 각 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성에 대한 피치 변화의 평균값을 검출하여, 모창음성에서 검출된 피치 변화와 비교할 수 있도록 한다.
여기서, 각 유사도판단그래프에 지정되는 유사도판단구간의 경우, 서로의 음정 변화 패턴이 서로 동일하거나 유사한 구간으로 지정됨은 물론이다.
한편, 검출부(300)는 가수음성에 대한 피치 변화의 평균값을 검출하는데 있어서 각 가수음성에 가중치를 부여하게 되는데, 각 가수음성 중 라이브 음성에 보다 높은 가중치를 부여하게 된다.
이처럼, 다수의 노래로부터 추출된 가수음성의 피치 변화의 평균값을 검출하는 것은 가수음성의 독특한 습관이나 창법을 일반화시키기 위함이며, 특히 라이브 음성에 높은 가중치를 부여하는 것은, 라이브 음성이 가수의 독특한 습관이나 창법을 보다 많이 반영하기 위함이다.
유사도판단구간으로부터 검출되는 피치 변화에는 가수음성 및 모창음성 각각에서의 포르만트(Formant), 음정 변화로부터 확인되는 업 밴딩, 다운 밴딩, 및 바이브레이션 등이 포함될 수 있다.
여기서, 포르만트는 고조파 성분인 배음(Harmonic) 및 상기 배음의 피크 값들의 피치 변화를 일컫는 것으로서 가수음성 및 모창음성 각각의 음색과 관련된다.
일반적으로 유성음(有聲音)의 경우 그 음성에 대한 고유한 주파수 분포도형을 얻을 수 있는데, 모음이면 성대의 1초간의 진동수를 나타내는 기본주파수(대체로 75∼300Hz)와, 그 정수배의 대부분의 배음으로 이루어지게 된다.
도 2를 참조하면 이 주파수 스펙트럼들의 피크를 연결한 외형(Contour)들의 피크들을 낮은 것부터 차례로 제1포르만트(1st Formant), 제2포르만트(2nd Formant), 및 제3포르만트(3rd Formant)라 한다.
이것은 구강(口腔) 등의 크기에 따라서 개인차가 있으므로 다소 강하게 되거나 약하게 되거나 하는 차가 생겨, 이것이 개인의 독특한 음색이 생기는 한 원인이 되며, 특히, 제1포르만트(1st Formant)와 제1배음(1st Harmonic) 간의 주파수 차이(d)가 개인의 음색을 결정하게 된다.
업 밴딩은 지정된 시작 음정으로부터 상기 시작 음정보다 높은 음정으로 지정된 목표 음정까지 도달하기까지의 피치 변화의 형태를 일컬으며, 반대로 다운 밴딩의 경우 지정된 시작 음정으로부터 상기 시작 음정보다 낮은 음정으로 지정된 목표 음정까지 도달하기 위한 피치 변화의 형태를 일컫는다.
이러한, 업 밴딩 및 다운 밴딩의 경우 예컨대, 시작 음정에서 목표 음정으로 균일하게 상승 또는 하강하거나, 또는 시작 음정부분에서 급하게 상승 또는 하강한 이후 목표 음정으로 갈수록 완만하게 상승 또는 하강하거나, 내지는 시작 음정부분에서는 완만하게 상승 또는 하강한 이후 목표 음정 부근에서 급하게 상승 또는 하강하는 것과 같이 다양한 형태를 가질 수 있다.
바이브레이션은 음정의 높고 낮음이 반복되는 피치 변화의 형태를 일컫는 것으로서, 이러한 음정의 높고 낮음이 반복되는 반복 횟수는 사람마다 독특한 습관이나 창법으로 인해 상이해 질 수 있다.
그리고, 판별부(400)는 가수음성과 모창음성 간의 유사도를 판별한다.
보다 구체적으로, 판별부(400)는 가수음성 및 모창음성 각각에 대하여 피치 변화가 검출되는 경우, 검출된 피치 변화를 서로 비교하여, 가수음성 및 모창음성 간에 유사도를 판별하게 된다.
이때, 판별부(400)는 가수음성 및 모창음성 간에 포르만트, 업 밴딩, 다운 밴딩, 및 바이브레이션을 서로 비교함으로써, 가수음성 및 모창음성 간에 유사도를 판별할 수 있다.
우선, 포르만트의 비교를 도 2를 참조하여 설명하면, 판별부(400)는 가수음성 및 모창음성 각각에서 개인의 음색을 결정하는 제1포르만트(1st Formant)와 제1배음(1st Harmonic) 간의 주파수 차이(d)를 확인하고, 가수음성 및 모창음성 간에 확인된 주파수 차이가 서로 동일할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.
또한, 업 밴딩의 비교를 도 3을 참조하여 설명하면, 판별부(400)는 가수음성 및 모창음성 각각에서 시작 음정인 '도'로부터 목표 음정인 '라'까지 도달하는 피치 변화의 형태를 확인하고, 가수음성 및 모창음성 간에 확인된 피치 변화의 형태가 서로 일치할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.
또한, 다운 밴딩의 비교를 도 4를 참조하여 설명하면, 판별부(400)는 가수음성 및 모창음성 각각에서 시작 음정인 '도'로부터 한 옥타브 낮은 목표 음정인 '라'까지 도달하는 피치 변화의 형태를 확인하고, 가수음성 및 모창음성 간에 확인된 피치 변화의 형태가 서로 일치할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.
여기서, 업 밴딩 및 다운 밴딩에서의 피치 변화의 형태를 비교하여 유사도를 판별함에 있어서, 판별부(400)는 전체 시간구간을 단위 시간구간으로 구분하고, 각 단위 시간구간마다 가수음성 및 모창음성 간의 음정을 비교한 결과의 평균값을 전체 시간구간에서의 유사도로서 판별 수 있다.
마지막, 바이브레이션 비교를 도 5를 참조하여 설명하면, 판별부(400)는 가수음성 및 모창음성 각각에서의, 음정의 높고 낮음이 반복되는 횟수를 확인하고, 가수음성 및 모창음성 간에 확인된 반복횟수가 서로 일치할수록 유사도가 높으며, 반대로 반복횟수가 서로 차이가 커질수록 유사도가 낮은 것으로 판단할 수 있다.
한편, 바이브레이션 비교의 경우, 위에서 언급한 음정의 높고 낮음이 반복되는 횟수뿐만이 아니라, 음정의 높고 낮음이 반복되는 크기인 진폭의 크기를 함께 비교하여 유사도를 판단할 수 있다.
이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 유사도판별장치는, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하고, 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하여 가수음성과 모창음성 각각의 독특한 습관이나 창법을 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하는데 있어서의 정확도를 크게 향상시킬 수 있다.
이하에서는 도 6을 참조하여 본 발명의 일 실시예에 따른 유사도판별장치에서의 동작 방법을 설명하기로 한다.
여기서, 설명의 편의를 위해 전술한 도 1 내지 도 5에 도시한 구성은 해당 참조번호를 언급하여 설명하겠다.
우선, 추출부(100)는 가수가 음성이 녹음된 노래(#1)로부터 가수음성을 추출하고, 가수의 음성을 모사한 사용자 음성이 녹음된 노래(#2)로부터 모창음성을 추출한다(S100).
여기서, 가수음성과 모창음성이 녹음되어 있는 각 노래는 압축된 형태인 예컨대, 'MP3' 파일 형태로서 입력되게 되는데, 이에 추출부(100)는 이렇게 입력된 각 노래의 압축을 해제하여 예컨대, 'WAV', 'PCM' 형태로 변환한 이후에 가수음성 및 모창음성을 추출하게 된다.
이때, 각 노래에는 추출하고자 하는 음성 이외에 악기의 소리가 함께 녹음되는데, 추출부(100)는 일련의 노이즈 제거 방식을 적용하여 악기 소리에 해당하는 주파수 특성을 제거함으로써 가수음성과 모창음성을 추출할 수 있다.
그리고 나서, 생성부(200)는 추출부(100)에서 각 노래로부터 가수음성과 모창음성의 추출이 완료되면, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결하여 유사도판단그래프를 생성한다(S200).
이때, 생성부(200)는 예컨대, FFT(Fast Fourier Transformation) 등의 알고리즘을 적용하여 음성 아날로그 신호인 가수음성 및 모창음성 각각에 대하여 주파수 도메인(domain)과 시간(time) 도메인을 기준으로 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결함으로써 유사도판단그래프를 생성하게 된다.
그런 다음, 검출부(300)는 생성부(200)에서 가수음성 및 모창음성 각각에 대한 유사도판단그래프의 생성이 완료되면, 유사도판단그래프로부터 가수음성 및 모창음성 각각에 대한 피치 변화를 검출하게 된다(S300-S400).
이때, 검출부(300)는 시간 도메인을 기준으로 유사도판단그래프의 전 구간에 걸쳐 피치 변화를 검출할 수 있으나, 유사도 판별의 정확도를 향상시키기 위한 측면에서, 일정 시간구간을 유사도판단구간으로서 지정하여, 지정된 유사도판단구간마다의 피치 변화를 검출한다.
한편, 다수의 노래로부터 가수음성이 추출된 경우 생성부(200)에서는 각 노래로부터 추출된 가수음성 각각에 대한 유사도판단그래프를 생성하게 되는데, 이 경우 검출부(300)는 각 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성에 대한 피치 변화의 평균값을 검출하여, 모창음성에서 검출된 피치 변화와 비교할 수 있도록 한다(S300, S500).
이때, 검출부(300)는 가수음성에 대한 피치 변화의 평균값을 검출하는데 있어서 각 가수음성에 가중치를 부여하게 되는데, 각 가수음성 중 라이브 음성에 보다 높은 가중치를 부여하게 된다.
이처럼, 다수의 노래로부터 추출된 가수음성의 피치 변화의 평균값을 검출하는 것은 가수음성의 독특한 습관이나 창법을 일반화시키기 위한 것인데, 특히 라이브 음성에 높은 가중치를 부여하는 것은, 라이브 음성이 가수의 독특한 습관이나 창법을 보다 많이 반영하기 위함이다.
이후, 판별부(400)는 가수음성 및 모창음성 각각에 대하여 피치 변화가 검출되는 경우, 검출된 피치 변화를 서로 비교하여, 가수음성 및 모창음성 간에 유사도를 판별하게 된다(S600-S800).
이때, 판별부(400)는 가수음성 및 모창음성 간에 포르만트(음색), 업 밴딩, 다운 밴딩, 및 바이브레이션을 서로 비교함으로써, 가수음성 및 모창음성 간에 유사도를 판별할 수 있다.
우선, 도 2를 참조하면 포르만트의 경우 가수음성 및 모창음성 각각에서 개인의 음색을 결정하는 제1포르만트(1st Formant)와 제1배음(1st Harmonic) 간의 주파수 차이(d)를 확인하고, 가수음성 및 모창음성 간에 확인된 주파수 차이가 서로 동일할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.
다음, 도 3을 참조하면 업 밴딩의 경우, 가수음성 및 모창음성 각각에서 시작 음정인 '도'로부터 목표 음정인 '라'까지 도달하는 피치 변화의 형태를 확인하고, 가수음성 및 모창음성 간에 확인된 피치 변화의 형태가 서로 일치할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.
또한, 도 4를 참조하면, 다운 밴딩의 경우, 가수음성 및 모창음성 각각에서 시작 음정인 '도'로부터 한 옥타브 낮은 목표 음정인 '라'까지 도달하는 피치 변화의 형태를 확인하고, 가수음성 및 모창음성 간에 확인된 피치 변화의 형태가 서로 일치할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.
마지막, 도 5를 참조하면, 바이브레이션의 경우, 가수음성 및 모창음성 각각에서의, 음정의 높고 낮음이 반복되는 횟수를 확인하고, 가수음성 및 모창음성 간에 확인된 반복횟수가 서로 일치할수록 유사도가 높으며, 반대로 반복횟수가 서로 차이가 커질수록 유사도가 낮은 것으로 판단할 수 있다.
한편, 본 발명의 일 실시예에 따른 유사도판별장치에서의 동작 방법을 설명하는데 언급된 각 단계에서는, 동일한 시점에 가수음성과 모창음성으로부터 피크 값 및 피치 변화를 검출하여 서로 간에 유사도를 판별하는 것으로 설명되었지만, 이와는 달리 가수음성의 경우 검출된 피크 값 및 피치 변화의 경우 데이터베이스에 사전에 등록된 상태에서, 다수의 모창음성을 입력받아, 각 모창음성의 피크 값 및 피치 변화를 검출하고, 검출된 값을 데이터베이스에 등록된 가수음성과 비교하는 구성 또한 가능하다.
이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 유사도판별장치의 동작 방법은, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하고, 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하여 가수음성과 모창음성 각각의 독특한 습관이나 창법을 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하는데 있어서의 정확도를 크게 향상시킬 수 있다.
한편, 여기에 제시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.
본 발명의 유사도판별장치 및 그 동작 방법에 따르면, 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 이를 서로 비교함으로써 가수음성과 모창음성 간의 유사도를 판별한다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.

Claims (11)

  1. 가수음성 및 모창음성 각각으로부터 검출되는 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하는 생성부;
    상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하는 검출부; 및
    상기 가수음성의 피치 변화와 상기 모창음성의 피치 변화를 비교하여 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 판별부를 포함하는 것을 특징으로 하는 유사도판별장치.
  2. 제 1 항에 있어서,
    상기 판별부는,
    상기 검출된 피치 변화에 고조파 성분인 배음 및 상기 배음의 피크 값들의 피치 변화인 포르만트가 포함되는 경우, 상기 가수음성 및 상기 모창음성 각각에서의 첫 번째 배음의 피크와 첫 번째 포르만트의 피크 간의 주파수 차이가 서로 동일할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 하는 유사도판별장치.
  3. 제 1 항에 있어서,
    상기 검출된 피치 변화에는,
    제1시작 음정으로부터 상기 제1시작 음정보다 높은 제1목표 음정까지의 피치 변화 형태인 업 밴딩, 제2시작 음정으로부터 상기 제2시작 음정보다 낮은 제2목표 음정까지의 피치 변화 형태인 상기 다운 밴딩, 및 음정의 높고 낮음이 반복되는 피치 변화의 형태인 바이브레이션 중 적어도 하나의 음정 변화가 포함되는 것을 특징으로 하는 유사도판별장치.
  4. 제 3 항에 있어서,
    상기 판별부는,
    상기 가수음성 및 상기 모창음성 간에, 상기 업 밴딩, 및 상기 다운 밴딩 중 적어도 하나의 피치 변화 형태가 서로 일치할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 하는 유사도판별장치.
  5. 제 3 항에 있어서,
    상기 판별부는,
    상기 가수음성의 바이브레이션 및 상기 모창음성의 바이브레이션 간에, 음정의 높고 낮음이 반복되는 횟수 차이가 적거나, 또는 상기 음정의 높고 낮음이 반복되는 진폭 차이가 적을수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 하는 유사도판별장치.
  6. 제 1 항에 있어서,
    상기 검출부는,
    템포가 서로 일치하며, 각각의 가수음성이 포함된 2 이상의 노래에 대하여, 상기 유사도판단그래프가 각각 생성되는 경우, 상기 각각의 유사도판단그래프로부터 각 가수음성의 피치 변화에 대한 평균값을 검출하여, 상기 피치 변화에 대한 평균값을 상기 모창음성으로부터 검출된 피치 변화와 비교하도록 하는 것을 특징으로 하는 유사도판별장치.
  7. 제 6 항에 있어서,
    상기 검출부는,
    상기 2 이상의 노래 중 라이브 가수음성이 포함된 노래에 보다 높은 가중치를 부여하여 상기 피치 변화의 평균값을 검출하는 것을 특징으로 하는 유사도판별장치.
  8. 가수음성 및 모창음성 각각으로부터 검출되는 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하는 생성단계;
    상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하는 검출단계; 및
    상기 가수음성의 피치 변화와 상기 모창음성의 피치 변화를 비교하여 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 판별단계를 포함하는 것을 특징으로 하는 유사도판별장치의 동작 방법.
  9. 제 8 항에 있어서,
    상기 판별단계는,
    상기 검출된 피치 변화에 고조파 성분인 배음 및 상기 배음의 피크 값들의 피치 변화인 포르만트가 포함되는 경우, 상기 가수음성 및 상기 모창음성 각각에서의 첫 번째 배음의 피크와 첫 번째 포르만트의 피크 간의 주파수 차이가 서로 동일할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 하는 유사도판별장치의 동작 방법.
  10. 제 8 항에 있어서,
    상기 검출단계는,
    템포가 서로 일치하며, 각각의 가수음성이 포함된 2 이상의 노래에 대하여, 상기 유사도판단그래프가 각각 생성되는 경우, 상기 각각의 유사도판단그래프로부터 각 가수음성의 피치 변화에 대한 평균값을 검출하여, 상기 피치 변화에 대한 평균값을 상기 모창음성으로부터 검출된 피치 변화와 비교하도록 하는 것을 특징으로 하는 유사도판별장치의 동작 방법.
  11. 제 10 항에 있어서,
    상기 검출단계는,
    상기 2 이상의 노래 중 라이브 가수음성이 포함된 노래에 보다 높은 가중치를 부여하여 상기 피치 변화의 평균값을 검출하는 것을 특징으로 하는 유사도판별장치의 동작 방법.
PCT/KR2015/003112 2014-04-03 2015-03-30 유사도판별장치 및 그 동작 방법 WO2015152586A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2014-0040006 2014-04-03
KR1020140040006A KR101571746B1 (ko) 2014-04-03 2014-04-03 유사도판별장치 및 그 동작 방법

Publications (1)

Publication Number Publication Date
WO2015152586A1 true WO2015152586A1 (ko) 2015-10-08

Family

ID=54240837

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/003112 WO2015152586A1 (ko) 2014-04-03 2015-03-30 유사도판별장치 및 그 동작 방법

Country Status (2)

Country Link
KR (1) KR101571746B1 (ko)
WO (1) WO2015152586A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754820A (zh) * 2018-12-07 2019-05-14 百度在线网络技术(北京)有限公司 目标音频获取方法及装置、存储介质及终端

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102296434B1 (ko) * 2017-12-27 2021-09-02 주식회사 포더비전 가상현실 기술을 이용하여 맞춤형 뮤직 스테이션을 제공하기 위한 방법 및 이를 사용한 서버
KR102077269B1 (ko) * 2018-02-26 2020-02-13 김국현 노래 분석 방법 및 이를 위한 장치
KR102418232B1 (ko) * 2020-09-29 2022-07-07 미디어젠(주) 보이스 유사도 평가 방법 및 그 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006154209A (ja) * 2004-11-29 2006-06-15 Ntt Advanced Technology Corp 声色類似度評価方法および評価装置
KR20060112633A (ko) * 2005-04-28 2006-11-01 (주)나요미디어 노래 평가 시스템 및 방법
KR20080053251A (ko) * 2007-09-18 2008-06-12 테크온팜 주식회사 노래학습 기능을 갖는 노래방 시스템 및 노래 학습 방법
KR20110121883A (ko) * 2010-05-03 2011-11-09 삼성전자주식회사 사용자의 음성을 보정하기 위한 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006154209A (ja) * 2004-11-29 2006-06-15 Ntt Advanced Technology Corp 声色類似度評価方法および評価装置
KR20060112633A (ko) * 2005-04-28 2006-11-01 (주)나요미디어 노래 평가 시스템 및 방법
KR20080053251A (ko) * 2007-09-18 2008-06-12 테크온팜 주식회사 노래학습 기능을 갖는 노래방 시스템 및 노래 학습 방법
KR20110121883A (ko) * 2010-05-03 2011-11-09 삼성전자주식회사 사용자의 음성을 보정하기 위한 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754820A (zh) * 2018-12-07 2019-05-14 百度在线网络技术(北京)有限公司 目标音频获取方法及装置、存储介质及终端

Also Published As

Publication number Publication date
KR101571746B1 (ko) 2015-11-25
KR20150115269A (ko) 2015-10-14

Similar Documents

Publication Publication Date Title
Salamon et al. An analysis/synthesis framework for automatic f0 annotation of multitrack datasets
Holzapfel et al. Three dimensions of pitched instrument onset detection
WO2015152586A1 (ko) 유사도판별장치 및 그 동작 방법
KR20100057307A (ko) 노래점수 평가방법 및 이를 이용한 가라오케 장치
Fujihara et al. Lyrics-to-audio alignment and its application
Ganguli et al. Data-driven exploration of melodic structure in Hindustani music
CN110164460A (zh) 歌唱合成方法和装置
Shenoy et al. Key, chord, and rhythm tracking of popular music recordings
Gulati et al. A two-stage approach for tonic identification in Indian art music
Bay et al. Second Fiddle is Important Too: Pitch Tracking Individual Voices in Polyphonic Music.
Wong et al. Automatic lyrics alignment for Cantonese popular music
Hainsworth et al. Automatic bass line transcription from polyphonic music
JP2008065153A (ja) 楽曲構造解析方法、プログラムおよび装置
WO2020171614A1 (ko) 오디오 신호 패턴을 이용한 햅틱 신호 발생 방법 및 장치
Ramirez et al. Performance-based interpreter identification in saxophone audio recordings
Demirel et al. Automatic chord-scale recognition using harmonic pitch class profiles
WO2010047444A1 (ko) 음악분수 구동장치 및 방법과 이를 위한 음악분수 시나리오 생성장치 및 방법
CN113393830B (zh) 混合声学模型训练及歌词时间戳生成方法、设备、介质
Koduri et al. Computational approaches for the understanding of melody in carnatic music
JP6849977B2 (ja) テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
JP7428182B2 (ja) 情報処理装置および方法、並びにプログラム
Bantula et al. Jazz ensemble expressive performance modeling
Tsai et al. Bird species identification based on timbre and pitch features
Yang Structure analysis of beijing opera arias
JP2014109603A (ja) 演奏評価装置、演奏評価方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15773782

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 18/01/2017)

122 Ep: pct application non-entry in european phase

Ref document number: 15773782

Country of ref document: EP

Kind code of ref document: A1