KR101571746B1 - 유사도판별장치 및 그 동작 방법 - Google Patents

유사도판별장치 및 그 동작 방법 Download PDF

Info

Publication number
KR101571746B1
KR101571746B1 KR1020140040006A KR20140040006A KR101571746B1 KR 101571746 B1 KR101571746 B1 KR 101571746B1 KR 1020140040006 A KR1020140040006 A KR 1020140040006A KR 20140040006 A KR20140040006 A KR 20140040006A KR 101571746 B1 KR101571746 B1 KR 101571746B1
Authority
KR
South Korea
Prior art keywords
voice
pitch
singer
similarity
pitch change
Prior art date
Application number
KR1020140040006A
Other languages
English (en)
Other versions
KR20150115269A (ko
Inventor
백승빈
Original Assignee
(주) 엠티콤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 엠티콤 filed Critical (주) 엠티콤
Priority to KR1020140040006A priority Critical patent/KR101571746B1/ko
Priority to PCT/KR2015/003112 priority patent/WO2015152586A1/ko
Publication of KR20150115269A publication Critical patent/KR20150115269A/ko
Application granted granted Critical
Publication of KR101571746B1 publication Critical patent/KR101571746B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

본 발명은 유사도판별장치 및 그 동작 방법을 개시한다. 즉, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하고, 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하여 가수음성과 모창음성 각각의 독특한 습관이나 창법을 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하는데 있어서의 정확도를 크게 향상시킬 수 있다.

Description

유사도판별장치 및 그 동작 방법{APPRATUS FOR DETERMINING SIMILARITY AND OPERATING METHOD THE SAME}
본 발명은 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 이를 서로 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하기 위한 방안에 관한 것이다.
음원과 관련된 컴퓨팅기술의 발전과 더불어 멀티미디어 기술의 발전은 다양한 형태의 미디어 서비스가 가능하게 하고, 또한 그로 인한 비즈니스 모델이 가능하게 하고 있다.
특히 음원에 대한 편집 및 스트림 서비스 등이 다양한 형태로 발전하고 있으며, 이는 개인용컴퓨터(PC)와 같은 고정형 단말기에서뿐만 아니라 사용자들이 소지하고 있는 이동단말기를 통해서도 제공받을 수 있게 되었다.
최근에는 음원과 관련된 서비스로서 사용자들이 가수의 목소리 및 창법을 따라 하고 이를 평가할 수 있는 모창 서비스가 각광받고 있는 추세이다.
이러한 모창 서비스의 경우, 가수의 음성인 가수음성과 가수음성을 따라 부른 사용자의 음성인 모창음성을 서로 비교함으로써 사용자의 모창 능력을 평가하는 방식으로 이루어지게 된다.
헌데, 기존 모창 서비스에서는 예컨대, 음정, 박자, 템포 등의 비교적 단순한 항목에 대하여 가수음성과 모창음성을 서로 비교하여 사용자의 모창 능력을 평가하게 되는데, 이러한 단순한 비교 항목은 결국 모창 능력 평가 결과에 대한 신뢰성을 저하시키는 요인으로 작용될 수 있다.
본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 이를 서로 비교함으로써 가수음성과 모창음성 간의 유사도 판별의 정확도를 크게 향상시키는데 있다.
상기 목적을 달성하기 위한 본 발명의 제 1 관점에 따른 유사도판별장치는 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결하여 유사도판단그래프를 생성하는 생성부; 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치(Pitch) 변화를 검출하는 검출부; 및 상기 가수음성 및 상기 모창음성 각각에서 검출된 피치 변화를 비교하여 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 판별부를 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 검출된 피치 변화에는, 상기 가수음성 및 상기 모창음성 각각의 음색과 관련하여, 고조파 성분인 배음(Harmonic) 및 상기 배음의 피크 값들의 피치 변화인 포르만트(Formant)가 포함되며, 상기 판별부는, 상기 가수음성 및 상기 모창음성 각각에서의 첫 번째 배음의 피크와 첫 번째 포르만트의 피크 간의 주파수 차이가 서로 동일할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 한다.
보다 구체적으로, 상기 검출된 피치 변화에는, 상기 가수음성 및 상기 모창음성 각각의 음정 변화가 포함되며, 상기 판별부는, 상기 가수음성 및 상기 모창음성 각각의 음정 변화로부터 확인되는 업 밴딩, 다운 밴딩, 및 바이브레이션 중 적어도 하나를 기초로 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 것을 특징으로 한다.
보다 구체적으로, 상기 업 밴딩은, 지정된 시작 음정으로부터 상기 시작 음정보다 높은 음정으로 지정된 목표 음정까지 도달하기까지의 피치 변화의 형태이며, 상기 다운 밴딩은, 지정된 시작 음정으로부터 상기 시작 음정보다 낮은 음정으로 지정된 목표 음정까지 도달하기 위한 피치 변화의 형태이며, 상기 판별부는, 상기 가수음성 및 상기 모창음성 각각에서의, 상기 업 밴딩 및 상기 다운 밴딩 중 적어도 하나의 피치 변화의 형태가 서로 일치할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 한다.
보다 구체적으로, 상기 바이브레이션은, 음정의 높고 낮음이 반복되는 피치 변화의 형태이며, 상기 판별부는, 상기 가수음성 및 상기 모창음성 각각에서의, 상기 음정의 높고 낮음이 반복되는 횟수가 서로 일치하거나, 상기 음정의 높고 낮음이 반복되는 진폭의 크기가 서로 일치할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 한다.
보다 구체적으로, 상기 유사도판별장치는, 장조 또는 단조로서 그 템포가 일치하는 2 이상의 노래로부터 상기 가수음성을 추출하는 추출부를 더 포함하며, 상기 검출부는, 상기 생성부에서, 상기 2 이상의 노래로부터 추출된 각 가수음성의 주파수 피크 값들을 연결한 각각의 유사도판단그래프가 생성되는 경우, 각 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성에 대한 피치 변화의 평균값을 검출하여, 상기 모창음성에서 검출된 피치 변화와 비교하도록 하는 것을 특징으로 한다.
보다 구체적으로, 상기 2 이상의 노래로부터 추출된 각 가수음성에는 상기 피치 변화의 평균값 검출과 관련된 가중치가 부여되며, 상기 검출부는, 상기 2 이상의 노래로부터 추출된 각 가수음성 중 라이브 음성에 보다 높은 가중치를 부여하여 상기 피치 변화의 평균값을 검출하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 제 2 관점에 따른 유사도판별장치의 동작 방법은, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결하여 유사도판단그래프를 생성하는 생성단계; 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치(Pitch) 변화를 검출하는 검출단계; 및 상기 가수음성 및 상기 모창음성 각각에서 검출된 피치 변화를 비교하여 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 판별단계를 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 검출된 피치 변화에는, 상기 가수음성 및 상기 모창음성 각각의 음색과 관련하여, 고조파 성분인 배음(Harmonic) 및 상기 배음의 피크 값들의 피치 변화인 포르만트(Formant)가 포함되며, 상기 판별단계는, 상기 가수음성 및 상기 모창음성 각각에서의 첫 번째 배음의 피크와 첫 번째 포르만트의 피크 간의 주파수 차이가 서로 동일할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 한다.
보다 구체적으로, 상기 검출된 피치 변화에는, 상기 가수음성 및 상기 모창음성 각각의 음정 변화가 포함되며, 상기 판별단계는, 상기 가수음성 및 상기 모창음성 각각의 음정 변화로부터 확인되는 업 밴딩, 다운 밴딩, 및 바이브레이션 중 적어도 하나를 기초로 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 것을 특징으로 한다.
보다 구체적으로, 상기 업 밴딩은, 지정된 시작 음정으로부터 상기 시작 음정보다 높은 음정으로 지정된 목표 음정까지 도달하기까지의 피치 변화의 형태이며, 상기 다운 밴딩은, 지정된 시작 음정으로부터 상기 시작 음정보다 낮은 음정으로 지정된 목표 음정까지 도달하기 위한 피치 변화의 형태이며, 상기 판별단계는, 상기 가수음성 및 상기 모창음성 각각에서의, 상기 업 밴딩 및 상기 다운 밴딩 중 적어도 하나의 피치 변화의 형태가 서로 일치할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 한다.
보다 구체적으로, 상기 바이브레이션은, 음정의 높고 낮음이 반복되는 피치 변화의 형태이며, 상기 판별단계는, 상기 가수음성 및 상기 모창음성 각각에서의, 상기 음정의 높고 낮음이 반복되는 횟수가 서로 일치하거나, 상기 음정의 높고 낮음이 반복되는 진폭의 크기가 서로 일치할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 한다.
보다 구체적으로, 상기 방법은, 상기 생성단계 이전에, 장조 또는 단조로서 그 템포가 일치하는 2 이상의 노래로부터 상기 가수음성을 추출하는 추출단계를 더 포함하며, 상기 검출단계는, 상기 생성단계에서, 상기 2 이상의 노래로부터 추출된 각 가수음성의 주파수 피크 값들을 연결한 각각의 유사도판단그래프가 생성되는 경우, 각 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성에 대한 피치 변화의 평균값을 검출하여, 상기 모창음성에서 검출된 피치 변화와 비교하도록 하는 것을 특징으로 한다.
보다 구체적으로, 상기 2 이상의 노래로부터 추출된 각 가수음성에는 상기 피치 변화의 평균값 검출과 관련된 가중치가 부여되며, 상기 검출단계는, 상기 2 이상의 노래로부터 추출된 각 가수음성 중 라이브 음성에 보다 높은 가중치를 부여하여 상기 피치 변화의 평균값을 검출하는 것을 특징으로 한다.
이에, 본 발명의 유사도판별장치 및 그 동작 방법에 의하면, 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 이를 서로 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하는데 있어서의 정확도를 크게 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 유사도판별장치의 개략적인 구성도.
도 2는 본 발명의 일 실시예에 따른 포르만트(Formant)를 설명하기 위한 도면.
도 3은 본 발명의 일 실시예에 따른 업 밴딩(Up Banding)을 설명하기 위한 도면.
도 4는 본 발명의 일 실시예에 따른 다운 밴딩(Down Banding)을 설명하기 위한 도면.
도 5는 본 발명의 일 실시예에 따른 바이브레이션(Vibration)을 설명하기 위한 도면.
도 6은 본 발명의 일 실시예에 따른 유사도판별장치에서의 동작 흐름을 설명하기 위한 순서도.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 대하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 유사도판별장치의 구성을 도시한 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 유사도판별장치는, 각 노래로부터 가수음성 및 모창음성을 추출하는 추출부(100), 추출된 가수음성 및 모창음성 각각에 대한 유사도판단그래프를 생성하는 생성부(200), 유사도판단그래프로부터 가수음성 및 모창음성 각각에 대한 피치(Pitch) 변화를 검출하는 검출부(300), 및 가수음성 및 모창음성 간의 피치 변화를 비교하여 유사도를 판별하는 판별부(400)를 포함하는 구성을 갖는다.
여기서, 추출부(100), 생성부(200), 검출부(300), 및 판별부(400)를 포함하는 유사도판별장치의 구성 전체 내지는 그 일부는, 하드웨어 또는 소프트웨어 모듈 형태로서 구현되거나, 이들 간의 조합에 의해서 구현될 수 있다.
예를 들어, 본 발명의 일 실시예에 따른 유사도판별장치의 전술한 구성의 경우 애플리케이션을 통해서 구현할 수 있는데, 이에 유사도판별장치로서는 애플리케이션을 설치 및 실행할 수 있는 단말이 해당될 수 있다.
이에, 유사도판별장치는 스마트폰, 개인용컴퓨터, 노트북, 및 테블릿 PC 등이 해당될 수 있으며, 이에 제한되는 것이 아닌 애플리케이션의 설치 및 실행 가능한 장치는 모두 포함될 수 있을 것이다.
한편, 본 발명의 일 실시예에 따른 유사도판별장치의 경우, 사용자(서비스 이용자)들이 가수의 목소리 및 창법을 따라 하고 이를 평가할 수 있는 모창 서비스와 관련하여, 가수음성과 모창음성 간의 유사도를 판별하도록 동작하게 된다.
여기서, 가수음성은 노래를 부른 가수의 음성을 일컫는 것이며, 모창음성은 가수의 음성을 모사하여 노래를 부르는 사용자의 음성을 일컫게 된다.
실질적으로 가수음성과 모창음성 간의 유사도를 판별은 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여, 분석된 결과를 서로 비교함으로써 이루어질 수 있을 것이다.
헌데, 음원과 관련된 컴퓨팅기술의 발전과 더불어 멀티미디어 기술의 발전에도 불구하고, 가수음성과 모창음성 간의 유사도를 판별하기 위한 기존 방식의 경우, 예컨대, 음정, 박자, 템포 등의 비교적 단순한 항목에 대하여 가수음성과 모창음성을 서로 비교하는 수준에 머무르고 있는 것이 현실이다.
이처럼, 음정, 박자, 템포 등 비교적 단순한 항목에 대하여 가수음성과 모창음성을 비교하는 기존 방식의 경우, 가수음성과 모창음성 간의 유사도보다는 원곡을 얼마나 잘 따라 불렀는지 평가하는 수준에 머무른다 할 것이며, 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하는 수준에는 크게 미치지 못한다 할 것이다.
이에, 본 발명의 일 실시예에서는 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 유사도를 판별하기 위한 방안을 제안하고자 하며, 이하에서는 이를 구체적으로 설명하기로 한다.
우선, 추출부(100)는 각 노래로부터 가수음성 및 모창음성을 추출하는 기능을 수행한다.
보다 구체적으로, 추출부(100)는 가수가 음성이 녹음된 노래(#1)로부터 가수음성을 추출하고, 가수의 음성을 모사한 사용자 음성이 녹음된 노래(#2)로부터 모창음성을 추출하게 된다.
여기서, 가수음성과 모창음성이 녹음되어 있는 각 노래는 압축된 형태인 예컨대, 'MP3' 파일 형태로서 입력되게 되는데, 추출부(100)는 이렇게 입력된 각 노래의 압축을 해제하여 예컨대, 'WAV', 'PCM' 형태로 변환한 이후에 가수음성 및 모창음성을 추출하게 된다.
이때, 추출부(100)는 일련의 노이즈 제거 방식을 적용함으로써 각 노래에 녹음되어 있는 가수음성 및 모창음성을 추출하게 된다.
즉, 각 노래에는 추출하고자 하는 음성 이외에 악기의 소리가 함께 녹음되는데, 추출부(100)는 악기 소리에 해당하는 주파수 특성을 제거하는 방식을 적용하여 가수음성과 모창음성을 추출할 수 있다.
예를 들어, 악기 소리의 경우 음성과는 달리 첨예한 주파수 특성을 갖게 되며, 이러한 주파수 특성만을 노이즈로서 제거하게 되면, 각 노래에서 악기 소기가 제거된 가수음성 및 모창음성을 추출할 수 있는 것이다.
그리고, 생성부(200)는 가수음성 및 모창음성 각각에 대한 유사도판단그래프를 생성하는 기능을 수행한다.
보다 구체적으로, 생성부(200)는 추출부(100)에서 각 노래로부터 가수음성과 모창음성의 추출이 완료되면, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결하여 유사도판단그래프를 생성하게 된다.
이때, 생성부(200)는 예컨대, FFT(Fast Fourier Transformation) 등의 알고리즘을 적용하여 음성 아날로그 신호인 가수음성 및 모창음성 각각에 대하여 주파수 도메인(domain)과 시간(time) 도메인을 기준으로 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결함으로써 유사도판단그래프를 생성하게 된다.
그리고, 검출부(300)는 유사도판단그래프로부터 피치(Pitch) 변화를 검출하는 기능을 수행한다.
보다 구체적으로, 검출부(300)는 생성부(200)에서 가수음성 및 모창음성 각각에 대한 유사도판단그래프의 생성이 완료되면, 유사도판단그래프로부터 가수음성 및 모창음성 각각에 대한 피치 변화를 검출하게 된다.
이때, 검출부(300)는 시간 도메인을 기준으로 유사도판단그래프의 전 구간에 걸쳐 피치 변화를 검출할 수 있으나, 유사도 판별의 정확도를 향상시키기 위한 측면에서, 일정 시간구간을 유사도판단구간으로서 지정하여, 지정된 유사도판단구간마다의 피치 변화를 검출한다.
한편, 가수음성의 경우, 장조 또는 단조로서 그 템포가 일치하는 다수의 노래로부터 추출될 수 있다.
이처럼 가수음성이 다수의 노래로부터 추출된 경우 생성부(200)에서는 각 노래로부터 추출된 가수음성 각각에 대한 유사도판단그래프를 생성하게 되는데, 이 경우 검출부(300)는 각 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성에 대한 피치 변화의 평균값을 검출하여, 모창음성에서 검출된 피치 변화와 비교할 수 있도록 한다.
여기서, 각 유사도판단그래프에 지정되는 유사도판단구간의 경우, 서로의 음정 변화 패턴이 서로 동일하거나 유사한 구간으로 지정됨은 물론이다.
한편, 검출부(300)는 가수음성에 대한 피치 변화의 평균값을 검출하는데 있어서 각 가수음성에 가중치를 부여하게 되는데, 각 가수음성 중 라이브 음성에 보다 높은 가중치를 부여하게 된다.
이처럼, 다수의 노래로부터 추출된 가수음성의 피치 변화의 평균값을 검출하는 것은 가수음성의 독특한 습관이나 창법을 일반화시키기 위함이며, 특히 라이브 음성에 높은 가중치를 부여하는 것은, 라이브 음성이 가수의 독특한 습관이나 창법을 보다 많이 반영하고 있음을 고려하기 위함이다.
유사도파단구간으로부터 검출되는 피치 변화에는 가수음성 및 모창음성 각각에서의 포르만트(Formant), 음정 변화로부터 확인되는 업 밴딩, 다운 밴딩, 및 바이브레이션 등이 포함될 수 있다.
여기서, 포르만트는 고조파 성분인 배음(Harmonic) 및 상기 배음의 피크 값들의 피치 변화를 일컫는 것으로서 가수음성 및 모창음성 각각의 음색과 관련된다.
일반적으로 유성음(有聲音)의 경우 그 음성에 대한 고유한 주파수 분포도형을 얻을 수 있는데, 모음이면 성대의 1초간의 진동수를 나타내는 기본주파수(대체로 75∼300Hz)와, 그 정수배의 대부분의 배음으로 이루어지게 된다.
도 2를 참조하면 이 주파수 스펙트럼들의 피크를 연결한 외형(Contour)들의 피크들을 낮은 것부터 차례로 제1포르만트(1st Formant), 제2포르만트(2nd Formant), 및 제3포르만트(3rd Formant)라 한다.
이것은 구강(口腔) 등의 크기에 따라서 개인차가 있으므로 다소 강하게 되거나 약하게 되거나 하는 차가 생겨, 이것이 개인의 독특한 음색이 생기는 한 원인이 되며, 특히, 제1포르만트(1st Formant)와 제1배음(1st Harmonic) 간의 주파수 차이(d)가 개인의 음색을 결정하게 된다.
업 밴딩은 지정된 시작 음정으로부터 상기 시작 음정보다 높은 음정으로 지정된 목표 음정까지 도달하기까지의 피치 변화의 형태를 일컬으며, 반대로 다운 밴딩의 경우 지정된 시작 음정으로부터 상기 시작 음정보다 낮은 음정으로 지정된 목표 음정까지 도달하기 위한 피치 변화의 형태를 일컫는다.
이러한, 업 밴딩 및 다운 밴딩의 경우 예컨대, 시작 음정에서 목표 음정으로 균일하게 상승 또는 하강하거나, 또는 시작 음정부분에서 급하게 상승 또는 하강한 이후 목표 음정으로 갈수록 완만하게 상승 또는 하강하거나, 내지는 시작 음정부분에서는 완만하게 상승 또는 하강한 이후 목표 음정 부근에서 급하게 상승 또는 하강하는 것과 같이 다양한 형태를 가질 수 있다.
바이브레이션은 음정의 높고 낮음이 반복되는 피치 변화의 형태를 일컫는 것으로서, 이러한 음정의 높고 낮음이 반복되는 반복 횟수는 사람마다 독특한 습관이나 창법으로 인해 상이해 질 수 있다.
그리고, 판별부(400)는 가수음성과 모창음성 간의 유사도를 판별한다.
보다 구체적으로, 판별부(400)는 가수음성 및 모창음성 각각에 대하여 피치 변화가 검출되는 경우, 검출된 피치 변화를 서로 비교하여, 가수음성 및 모창음성 간에 유사도를 판별하게 된다.
이때, 판별부(400)는 가수음성 및 모창음성 간에 포르만트, 업 밴딩, 다운 밴딩, 및 바이브레이션을 서로 비교함으로써, 가수음성 및 모창음성 간에 유사도를 판별할 수 있다.
우선, 포르만트의 비교를 도 2를 참조하여 설명하면, 판별부(400)는 가수음성 및 모창음성 각각에서 개인의 음색을 결정하는 제1포르만트(1st Formant)와 제1배음(1st Harmonic) 간의 주파수 차이(d)를 확인하고, 가수음성 및 모창음성 간에 확인된 주파수 차이가 서로 동일할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.
또한, 업 밴딩의 비교를 도 3을 참조하여 설명하면, 판별부(400)는 가수음성 및 모창음성 각각에서 시작 음정인 '도'로부터 목표 음정인 '라'까지 도달하는 피치 변화의 형태를 확인하고, 가수음성 및 모창음성 간에 확인된 피치 변화의 형태가 서로 일치할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.
또한, 다운 밴딩의 비교를 도 4를 참조하여 설명하면, 판별부(400)는 가수음성 및 모창음성 각각에서 시작 음정인 '도'로부터 한 옥타브 낮은 목표 음정인 '라'까지 도달하는 피치 변화의 형태를 확인하고, 가수음성 및 모창음성 간에 확인된 피치 변화의 형태가 서로 일치할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.
여기서, 업 밴딩 및 다운 밴딩에서의 피치 변화의 형태를 비교하여 유사도를 판별함에 있어서, 판별부(400)는 전체 시간구간을 단위 시간구간으로 구분하고, 각 단위 시간구간마다 가수음성 및 모창음성 간의 음정을 비교한 결과의 평균값을 전체 시간구간에서의 유사도로서 판별 수 있다.
마지막, 바이브레이션 비교를 도 5를 참조하여 설명하면, 판별부(400)는 가수음성 및 모창음성 각각에서의, 음정의 높고 낮음이 반복되는 횟수를 확인하고, 가수음성 및 모창음성 간에 확인된 반복횟수가 서로 일치할수록 유사도가 높으며, 반대로 반복횟수가 서로 차이가 커질수록 유사도가 낮은 것으로 판단할 수 있다.
한편, 바이브레이션 비교의 경우, 위에서 언급한 음정의 높고 낮음이 반복되는 횟수뿐만이 아니라, 음정의 높고 낮음이 반복되는 크기인 진폭의 크기를 함께 비교하여 유사도를 판단할 수 있다.
이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 유사도판별장치는, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하고, 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하여 가수음성과 모창음성 각각의 독특한 습관이나 창법을 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하는데 있어서의 정확도를 크게 향상시킬 수 있다.
이하에서는 도 6을 참조하여 본 발명의 일 실시예에 따른 유사도판별장치에서의 동작 방법을 설명하기로 한다.
여기서, 설명의 편의를 위해 전술한 도 1 내지 도 5에 도시한 구성은 해당 참조번호를 언급하여 설명하겠다.
우선, 추출부(100)는 가수가 음성이 녹음된 노래(#1)로부터 가수음성을 추출하고, 가수의 음성을 모사한 사용자 음성이 녹음된 노래(#2)로부터 모창음성을 추출한다(S100).
여기서, 가수음성과 모창음성이 녹음되어 있는 각 노래는 압축된 형태인 예컨대, 'MP3' 파일 형태로서 입력되게 되는데, 이에 추출부(100)는 이렇게 입력된 각 노래의 압축을 해제하여 예컨대, 'WAV', 'PCM' 형태로 변환한 이후에 가수음성 및 모창음성을 추출하게 된다.
이때, 각 노래에는 추출하고자 하는 음성 이외에 악기의 소리가 함께 녹음되는데, 추출부(100)는 일련의 노이즈 제거 방식을 적용하여 악기 소리에 해당하는 주파수 특성을 제거함으로써 가수음성과 모창음성을 추출할 수 있다.
그리고 나서, 생성부(200)는 추출부(100)에서 각 노래로부터 가수음성과 모창음성의 추출이 완료되면, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결하여 유사도판단그래프를 생성한다(S200).
이때, 생성부(200)는 예컨대, FFT(Fast Fourier Transformation) 등의 알고리즘을 적용하여 음성 아날로그 신호인 가수음성 및 모창음성 각각에 대하여 주파수 도메인(domain)과 시간(time) 도메인을 기준으로 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결함으로써 유사도판단그래프를 생성하게 된다.
그런 다음, 검출부(300)는 생성부(200)에서 가수음성 및 모창음성 각각에 대한 유사도판단그래프의 생성이 완료되면, 유사도판단그래프로부터 가수음성 및 모창음성 각각에 대한 피치 변화를 검출하게 된다(S300-S400).
이때, 검출부(300)는 시간 도메인을 기준으로 유사도판단그래프의 전 구간에 걸쳐 피치 변화를 검출할 수 있으나, 유사도 판별의 정확도를 향상시키기 위한 측면에서, 일정 시간구간을 유사도판단구간으로서 지정하여, 지정된 유사도판단구간마다의 피치 변화를 검출한다.
한편, 가수음성이 다수의 노래로부터 추출된 경우 생성부(200)에서는 각 노래로부터 추출된 가수음성 각각에 대한 유사도판단그래프를 생성하게 되는데, 이 경우 검출부(300)는 각 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성에 대한 피치 변화의 평균값을 검출하여, 모창음성에서 검출된 피치 변화와 비교할 수 있도록 한다(S300, S500).
이때, 검출부(300)는 가수음성에 대한 피치 변화의 평균값을 검출하는데 있어서 각 가수음성에 가중치를 부여하게 되는데, 각 가수음성 중 라이브 음성에 보다 높은 가중치를 부여하게 된다.
이처럼, 다수의 노래로부터 추출된 가수음성의 피치 변화의 평균값을 검출하는 것은 가수음성의 독특한 습관이나 창법을 일반화시키기 위한 것인데, 특히 라이브 음성에 높은 가중치를 부여하는 것은, 라이브 음성이 가수의 독특한 습관이나 창법을 보다 많이 반영하고 있음을 고려하기 위함이다.
이후, 판별부(400)는 가수음성 및 모창음성 각각에 대하여 피치 변화가 검출되는 경우, 검출된 피치 변화를 서로 비교하여, 가수음성 및 모창음성 간에 유사도를 판별하게 된다(S600-S800).
이때, 판별부(400)는 가수음성 및 모창음성 간에 포르만트(음색), 업 밴딩, 다운 밴딩, 및 바이브레이션을 서로 비교함으로써, 가수음성 및 모창음성 간에 유사도를 판별할 수 있다.
우선, 도 2를 참조하면 포르만트의 경우 가수음성 및 모창음성 각각에서 개인의 음색을 결정하는 제1포르만트(1st Formant)와 제1배음(1st Harmonic) 간의 주파수 차이(d)를 확인하고, 가수음성 및 모창음성 간에 확인된 주파수 차이가 서로 동일할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.
다음, 도 3을 참조하면 업 밴딩의 경우, 가수음성 및 모창음성 각각에서 시작 음정인 '도'로부터 목표 음정인 '라'까지 도달하는 피치 변화의 형태를 확인하고, 가수음성 및 모창음성 간에 확인된 피치 변화의 형태가 서로 일치할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.
또한, 도 4를 참조하면, 다운 밴딩의 경우, 가수음성 및 모창음성 각각에서 시작 음정인 '도'로부터 한 옥타브 낮은 목표 음정인 '라'까지 도달하는 피치 변화의 형태를 확인하고, 가수음성 및 모창음성 간에 확인된 피치 변화의 형태가 서로 일치할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.
마지막, 도 5를 참조하면, 바이브레이션의 경우, 가수음성 및 모창음성 각각에서의, 음정의 높고 낮음이 반복되는 횟수를 확인하고, 가수음성 및 모창음성 간에 확인된 반복횟수가 서로 일치할수록 유사도가 높으며, 반대로 반복횟수가 서로 차이가 커질수록 유사도가 낮은 것으로 판단할 수 있다.
한편, 본 발명의 일 실시예에 따른 유사도판별장치에서의 동작 방법을 설명하는데 언급된 각 단계에서는, 동일한 시점에 가수음성과 모창음성으로부터 피크 값 및 피치 변화를 검출하여 서로 간에 유사도를 판별하는 것으로 설명되었지만, 이와는 달리 가수음성의 경우 검출된 피크 값 및 피치 변화의 경우 데이터베이스에 사전에 등록된 상태에서, 다수의 모창음성을 입력받아, 각 모창음성의 피크 값 및 피치 변화를 검출하고, 검출된 값을 데이터베이스에 등록된 가수음성과 비교하는 구성 또한 가능하다.
이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 유사도판별장치의 동작 방법은, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하고, 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하여 가수음성과 모창음성 각각의 독특한 습관이나 창법을 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하는데 있어서의 정확도를 크게 향상시킬 수 있다.
한편, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 처리 시스템의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다.
컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.
본 명세서에서 "시스템"이나 "장치"라 함은 예컨대 프로그래머블 프로세서, 컴퓨터 혹은 다중 프로세서나 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 기구, 장치 및 기계를 포괄한다. 처리 시스템은, 하드웨어에 부가하여, 예컨대 프로세서 펌웨어를 구성하는 코드, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 혹은 이들 중 하나 이상의 조합 등 요청 시 컴퓨터 프로그램에 대한 실행 환경을 형성하는 코드를 포함할 수 있다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.
한편, 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 EPROM, EEPROM 및 플래시메모리 장치와 같은 반도체 메모리 장치, 예컨대 내부 하드디스크나 외장형 디스크와 같은 자기 디스크, 자기광학 디스크 및 CD-ROM과 DVD-ROM 디스크를 포함하여 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함할 수 있다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다.
본 명세서에서 설명한 주제의 구현물은 예컨대 데이터 서버와 같은 백엔드 컴포넌트를 포함하거나, 예컨대 어플리케이션 서버와 같은 미들웨어 컴포넌트를 포함하거나, 예컨대 사용자가 본 명세서에서 설명한 주제의 구현물과 상호 작용할 수 있는 웹 브라우저나 그래픽 유저 인터페이스를 갖는 클라이언트 컴퓨터와 같은 프론트엔드 컴포넌트 혹은 그러한 백엔드, 미들웨어 혹은 프론트엔드 컴포넌트의 하나 이상의 모든 조합을 포함하는 연산 시스템에서 구현될 수도 있다. 시스템의 컴포넌트는 예컨대 통신 네트워크와 같은 디지털 데이터 통신의 어떠한 형태나 매체에 의해서도 상호 접속 가능하다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 마찬가지로, 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
또한, 본 명세서에서는 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다
이와 같이, 본 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하려는 의도가 아니다. 따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명의 유사도판별장치 및 그 동작 방법에 따르면, 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 이를 서로 비교함으로써 가수음성과 모창음성 간의 유사도를 판별한다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.
100: 추출부
200: 생성부
300: 검출부
400: 판별부

Claims (14)

  1. 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결하여 유사도판단그래프를 생성하는 생성부;
    상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치(Pitch) 변화를 검출하는 검출부; 및
    상기 가수음성 및 상기 모창음성 각각에서 검출된 피치 변화를 비교하여 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 판별부를 포함하며,
    장조 또는 단조로서 그 템포가 일치하는 2 이상의 노래로부터 상기 가수음성을 추출하는 추출부를 더 포함하며,
    상기 검출부는,
    상기 생성부에서, 상기 2 이상의 노래로부터 추출된 각 가수음성의 주파수 피크 값들을 연결한 각각의 유사도판단그래프가 생성되는 경우, 각 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성에 대한 피치 변화의 평균값을 검출하여, 상기 모창음성에서 검출된 피치 변화와 비교하도록 하는 것을 특징으로 하는 유사도판별장치.
  2. 제 1 항에 있어서,
    상기 검출된 피치 변화에는,
    상기 가수음성 및 상기 모창음성 각각의 음색과 관련하여, 고조파 성분인 배음(Harmonic) 및 상기 배음의 피크 값들의 피치 변화인 포르만트(Formant)가 포함되며,
    상기 판별부는,
    상기 가수음성 및 상기 모창음성 각각에서의 첫 번째 배음의 피크와 첫 번째 포르만트의 피크 간의 주파수 차이가 서로 동일할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 하는 유사도판별장치.
  3. 제 1 항에 있어서,
    상기 검출된 피치 변화에는,
    상기 가수음성 및 상기 모창음성 각각의 음정 변화가 포함되며,
    상기 판별부는,
    상기 가수음성 및 상기 모창음성 각각의 음정 변화로부터 확인되는 업 밴딩, 다운 밴딩, 및 바이브레이션 중 적어도 하나를 기초로 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 것을 특징으로 하는 유사도판별장치.
  4. 제 3 항에 있어서,
    상기 업 밴딩은,
    지정된 시작 음정으로부터 상기 시작 음정보다 높은 음정으로 지정된 목표 음정까지 도달하기까지의 피치 변화의 형태이며,
    상기 다운 밴딩은,
    지정된 시작 음정으로부터 상기 시작 음정보다 낮은 음정으로 지정된 목표 음정까지 도달하기 위한 피치 변화의 형태이며,
    상기 판별부는,
    상기 가수음성 및 상기 모창음성 각각에서의, 상기 업 밴딩 및 상기 다운 밴딩 중 적어도 하나의 피치 변화의 형태가 서로 일치할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 하는 유사도판별장치.
  5. 제 3 항에 있어서,
    상기 바이브레이션은,
    음정의 높고 낮음이 반복되는 피치 변화의 형태이며,
    상기 판별부는,
    상기 가수음성 및 상기 모창음성 각각에서의, 상기 가수음성 및 상기 모창음성 각각에서의, 상기 음정의 높고 낮음이 반복되는 횟수가 서로 일치하거나, 상기 음정의 높고 낮음이 반복되는 진폭의 크기가 서로 일치할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 하는 유사도판별장치.
  6. 삭제
  7. 제 1 항에 있어서,
    상기 2 이상의 노래로부터 추출된 각 가수음성에는 상기 피치 변화의 평균값 검출과 관련된 가중치가 부여되며,
    상기 검출부는,
    상기 2 이상의 노래로부터 추출된 각 가수음성 중 라이브 음성에 보다 높은 가중치를 부여하여 상기 피치 변화의 평균값을 검출하는 것을 특징으로 하는 유사도판별장치.
  8. 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결하여 유사도판단그래프를 생성하는 생성단계;
    상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치(Pitch) 변화를 검출하는 검출단계; 및
    상기 가수음성 및 상기 모창음성 각각에서 검출된 피치 변화를 비교하여 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 판별단계를 포함하며,
    상기 생성단계 이전에, 장조 또는 단조로서 그 템포가 일치하는 2 이상의 노래로부터 상기 가수음성을 추출하는 추출단계를 더 포함하며,
    상기 검출단계는,
    상기 생성단계에서, 상기 2 이상의 노래로부터 추출된 각 가수음성의 주파수 피크 값들을 연결한 각각의 유사도판단그래프가 생성되는 경우, 각 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성에 대한 피치 변화의 평균값을 검출하여, 상기 모창음성에서 검출된 피치 변화와 비교하도록 하는 것을 특징으로 하는 유사도판별장치의 동작 방법.
  9. 제 8 항에 있어서,
    상기 검출된 피치 변화에는,
    상기 가수음성 및 상기 모창음성 각각의 음색과 관련하여, 고조파 성분인 배음(Harmonic) 및 상기 배음의 피크 값들의 피치 변화인 포르만트(Formant)가 포함되며,
    상기 판별단계는,
    상기 가수음성 및 상기 모창음성 각각에서의 첫 번째 배음의 피크와 첫 번째 포르만트의 피크 간의 주파수 차이가 서로 동일할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 하는 유사도판별장치의 동작 방법.
  10. 제 9 항에 있어서,
    상기 검출된 피치 변화에는,
    상기 가수음성 및 상기 모창음성 각각의 음정 변화가 포함되며,
    상기 판별단계는,
    상기 가수음성 및 상기 모창음성 각각의 음정 변화로부터 확인되는 업 밴딩, 다운 밴딩, 및 바이브레이션 중 적어도 하나를 기초로 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 것을 특징으로 하는 유사도판별장치의 동작 방법.
  11. 제 10 항에 있어서,
    상기 업 밴딩은,
    지정된 시작 음정으로부터 상기 시작 음정보다 높은 음정으로 지정된 목표 음정까지 도달하기까지의 피치 변화의 형태이며,
    상기 다운 밴딩은,
    지정된 시작 음정으로부터 상기 시작 음정보다 낮은 음정으로 지정된 목표 음정까지 도달하기 위한 피치 변화의 형태이며,
    상기 판별단계는,
    상기 가수음성 및 상기 모창음성 각각에서의, 상기 업 밴딩 및 상기 다운 밴딩 중 적어도 하나의 피치 변화의 형태가 서로 일치할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 하는 유사도판별장치의 동작 방법.
  12. 제 10 항에 있어서,
    상기 바이브레이션은,
    음정의 높고 낮음이 반복되는 피치 변화의 형태이며,
    상기 판별단계는,
    상기 가수음성 및 상기 모창음성 각각에서의, 상기 가수음성 및 상기 모창음성 각각에서의, 상기 음정의 높고 낮음이 반복되는 횟수가 서로 일치하거나, 상기 음정의 높고 낮음이 반복되는 진폭의 크기가 서로 일치할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 하는 유사도판별장치의 동작 방법.
  13. 삭제
  14. 제 8 항에 있어서,
    상기 2 이상의 노래로부터 추출된 각 가수음성에는 상기 피치 변화의 평균값 검출과 관련된 가중치가 부여되며,
    상기 검출단계는,
    상기 2 이상의 노래로부터 추출된 각 가수음성 중 라이브 음성에 보다 높은 가중치를 부여하여 상기 피치 변화의 평균값을 검출하는 것을 특징으로 하는 유사도판별장치의 동작 방법.
KR1020140040006A 2014-04-03 2014-04-03 유사도판별장치 및 그 동작 방법 KR101571746B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140040006A KR101571746B1 (ko) 2014-04-03 2014-04-03 유사도판별장치 및 그 동작 방법
PCT/KR2015/003112 WO2015152586A1 (ko) 2014-04-03 2015-03-30 유사도판별장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140040006A KR101571746B1 (ko) 2014-04-03 2014-04-03 유사도판별장치 및 그 동작 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020150060483A Division KR20150115689A (ko) 2015-04-29 2015-04-29 유사도판별장치 및 그 동작 방법

Publications (2)

Publication Number Publication Date
KR20150115269A KR20150115269A (ko) 2015-10-14
KR101571746B1 true KR101571746B1 (ko) 2015-11-25

Family

ID=54240837

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140040006A KR101571746B1 (ko) 2014-04-03 2014-04-03 유사도판별장치 및 그 동작 방법

Country Status (2)

Country Link
KR (1) KR101571746B1 (ko)
WO (1) WO2015152586A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190079440A (ko) * 2017-12-27 2019-07-05 주식회사 포더비전 가상현실 기술을 이용하여 맞춤형 뮤직 스테이션을 제공하기 위한 방법 및 이를 사용한 서버
KR20220043769A (ko) * 2020-09-29 2022-04-05 미디어젠(주) 보이스 유사도 평가 방법 및 그 장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102077269B1 (ko) * 2018-02-26 2020-02-13 김국현 노래 분석 방법 및 이를 위한 장치
CN109754820B (zh) * 2018-12-07 2020-12-29 百度在线网络技术(北京)有限公司 目标音频获取方法及装置、存储介质及终端

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006154209A (ja) * 2004-11-29 2006-06-15 Ntt Advanced Technology Corp 声色類似度評価方法および評価装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060112633A (ko) * 2005-04-28 2006-11-01 (주)나요미디어 노래 평가 시스템 및 방법
KR20070099501A (ko) * 2007-09-18 2007-10-09 테크온팜 주식회사 노래 학습 시스템 및 방법
KR20110121883A (ko) * 2010-05-03 2011-11-09 삼성전자주식회사 사용자의 음성을 보정하기 위한 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006154209A (ja) * 2004-11-29 2006-06-15 Ntt Advanced Technology Corp 声色類似度評価方法および評価装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190079440A (ko) * 2017-12-27 2019-07-05 주식회사 포더비전 가상현실 기술을 이용하여 맞춤형 뮤직 스테이션을 제공하기 위한 방법 및 이를 사용한 서버
KR102296434B1 (ko) * 2017-12-27 2021-09-02 주식회사 포더비전 가상현실 기술을 이용하여 맞춤형 뮤직 스테이션을 제공하기 위한 방법 및 이를 사용한 서버
KR20220043769A (ko) * 2020-09-29 2022-04-05 미디어젠(주) 보이스 유사도 평가 방법 및 그 장치
KR102418232B1 (ko) 2020-09-29 2022-07-07 미디어젠(주) 보이스 유사도 평가 방법 및 그 장치

Also Published As

Publication number Publication date
WO2015152586A1 (ko) 2015-10-08
KR20150115269A (ko) 2015-10-14

Similar Documents

Publication Publication Date Title
CN105788589B (zh) 一种音频数据的处理方法及装置
KR102128926B1 (ko) 오디오 정보 처리 방법 및 디바이스
EP3287921B1 (en) Spoken pass-phrase suitability determination
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US20150356967A1 (en) Generating Narrative Audio Works Using Differentiable Text-to-Speech Voices
KR101571746B1 (ko) 유사도판별장치 및 그 동작 방법
CN104978962A (zh) 哼唱检索方法及系统
CN110264993A (zh) 语音合成方法、装置、设备及计算机可读存储介质
CN108764114B (zh) 一种信号识别方法及其设备、存储介质、终端
CN110246519A (zh) 情绪识别方法、设备及计算机可读存储介质
US10854182B1 (en) Singing assisting system, singing assisting method, and non-transitory computer-readable medium comprising instructions for executing the same
JP6203258B2 (ja) 電子透かし埋め込み装置、電子透かし埋め込み方法、及び電子透かし埋め込みプログラム
KR101813704B1 (ko) 사용자 음색 분석 장치 및 음색 분석 방법
KR20150115689A (ko) 유사도판별장치 및 그 동작 방법
KR101833731B1 (ko) 머신 러닝을 통한 화자 인식 모델 생성 방법 및 장치
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
CN110111813B (zh) 节奏检测的方法及装置
Sinith et al. Pattern recognition in South Indian classical music using a hybrid of HMM and DTW
CN114255785A (zh) 音频检测方法、装置、终端及存储介质
CN112164387A (zh) 音频合成方法、装置及电子设备和计算机可读存储介质
CN112489607A (zh) 录制歌曲的方法、装置、电子设备及可读存储介质
CN112420004A (zh) 生成歌曲的方法、装置、电子设备及计算机可读存储介质
JP5272141B2 (ja) 音声処理装置およびプログラム
EP4210052A1 (en) Apparatus and method for audio data analysis
CN115510911A (zh) 基频序列识别模型训练及基频序列识别方法、设备和产品

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181115

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20191115

Year of fee payment: 5