WO2015152586A1

WO2015152586A1 - 유사도판별장치 및 그 동작 방법

Info

Publication number: WO2015152586A1
Application number: PCT/KR2015/003112
Authority: WO
Inventors: 백승빈
Original assignee: (주) 엠티콤
Priority date: 2014-04-03
Filing date: 2015-03-30
Publication date: 2015-10-08
Also published as: KR101571746B1; KR20150115269A

Abstract

본 발명은 유사도판별장치 및 그 동작 방법을 개시한다. 즉, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하고, 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하여 가수음성과 모창음성 각각의 독특한 습관이나 창법을 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하는데 있어서의 정확도를 크게 향상시킬 수 있다.

Description

유사도판별장치 및 그 동작 방법

본 발명은 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 이를 서로 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하기 위한 방안에 관한 것이다.

음원과 관련된 컴퓨팅기술의 발전과 더불어 멀티미디어 기술의 발전은 다양한 형태의 미디어 서비스가 가능하게 하고, 또한 그로 인한 비즈니스 모델이 가능하게 하고 있다.

특히 음원에 대한 편집 및 스트림 서비스 등이 다양한 형태로 발전하고 있으며, 이는 개인용컴퓨터(PC)와 같은 고정형 단말기에서뿐만 아니라 사용자들이 소지하고 있는 이동단말기를 통해서도 제공받을 수 있게 되었다.

최근에는 음원과 관련된 서비스로서 사용자들이 가수의 목소리 및 창법을 따라 하고 이를 평가할 수 있는 모창 서비스가 각광받고 있는 추세이다.

이러한 모창 서비스의 경우, 가수의 음성인 가수음성과 가수음성을 따라 부른 사용자의 음성인 모창음성을 서로 비교함으로써 사용자의 모창 능력을 평가하는 방식으로 이루어지게 된다.

헌데, 기존 모창 서비스에서는 예컨대, 음정, 박자, 템포 등의 비교적 단순한 항목에 대하여 가수음성과 모창음성을 서로 비교하여 사용자의 모창 능력을 평가하게 되는데, 이러한 단순한 비교 항목은 결국 모창 능력 평가 결과에 대한 신뢰성을 저하시키는 요인으로 작용될 수 있다.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 이를 서로 비교함으로써 가수음성과 모창음성 간의 유사도 판별의 정확도를 크게 향상시키는데 있다.

상기 목적을 달성하기 위한 본 발명의 제 1 관점에 따른 유사도판별장치는 가수음성 및 모창음성 각각으로부터 검출되는 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하는 생성부; 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하는 검출부; 및 상기 가수음성의 피치 변화와 상기 모창음성의 피치 변화를 비교하여 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 판별부를 포함하는 것을 특징으로 한다.

보다 구체적으로, 상기 판별부는, 상기 검출된 피치 변화에 고조파 성분인 배음 및 상기 배음의 피크 값들의 피치 변화인 포르만트가 포함되는 경우, 상기 가수음성 및 상기 모창음성 각각에서의 첫 번째 배음의 피크와 첫 번째 포르만트의 피크 간의 주파수 차이가 서로 동일할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 한다.

보다 구체적으로, 상기 검출된 피치 변화에는, 제1시작 음정으로부터 상기 제1시작 음정보다 높은 제1목표 음정까지의 피치 변화 형태인 업 밴딩, 제2시작 음정으로부터 상기 제2시작 음정보다 낮은 제2목표 음정까지의 피치 변화 형태인 상기 다운 밴딩, 및 음정의 높고 낮음이 반복되는 피치 변화의 형태인 바이브레이션 중 적어도 하나의 음정 변화가 포함되는 것을 특징으로 한다.

보다 구체적으로, 상기 판별부는, 상기 가수음성 및 상기 모창음성 간에, 상기 업 밴딩, 및 상기 다운 밴딩 중 적어도 하나의 피치 변화 형태가 서로 일치할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 한다.

보다 구체적으로, 상기 판별부는, 상기 가수음성의 바이브레이션 및 상기 모창음성의 바이브레이션 간에, 음정의 높고 낮음이 반복되는 횟수 차이가 적거나, 또는 상기 음정의 높고 낮음이 반복되는 진폭 차이가 적을수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 한다.

보다 구체적으로, 상기 검출부는, 템포가 서로 일치하며, 각각의 가수음성이 포함된 2 이상의 노래에 대하여, 상기 유사도판단그래프가 각각 생성되는 경우, 상기 각각의 유사도판단그래프로부터 각 가수음성의 피치 변화에 대한 평균값을 검출하여, 상기 피치 변화에 대한 평균값을 상기 모창음성으로부터 검출된 피치 변화와 비교하도록 하는 것을 특징으로 한다.

보다 구체적으로, 상기 검출부는, 상기 2 이상의 노래 중 라이브 가수음성이 포함된 노래에 보다 높은 가중치를 부여하여 상기 피치 변화의 평균값을 검출하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 제 2 관점에 따른 유사도판별장치의 동작 방법은, 가수음성 및 모창음성 각각으로부터 검출되는 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하는 생성단계; 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하는 검출단계; 및 상기 가수음성의 피치 변화와 상기 모창음성의 피치 변화를 비교하여 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 판별단계를 포함하는 것을 특징으로 한다.

보다 구체적으로, 상기 판별단계는, 상기 검출된 피치 변화에 고조파 성분인 배음 및 상기 배음의 피크 값들의 피치 변화인 포르만트가 포함되는 경우, 상기 가수음성 및 상기 모창음성 각각에서의 첫 번째 배음의 피크와 첫 번째 포르만트의 피크 간의 주파수 차이가 서로 동일할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 한다.

보다 구체적으로, 상기 검출단계는, 템포가 서로 일치하며, 각각의 가수음성이 포함된 2 이상의 노래에 대하여, 상기 유사도판단그래프가 각각 생성되는 경우, 상기 각각의 유사도판단그래프로부터 각 가수음성의 피치 변화에 대한 평균값을 검출하여, 상기 피치 변화에 대한 평균값을 상기 모창음성으로부터 검출된 피치 변화와 비교하도록 하는 것을 특징으로 한다.

보다 구체적으로, 상기 검출단계는, 상기 2 이상의 노래 중 라이브 가수음성이 포함된 노래에 보다 높은 가중치를 부여하여 상기 피치 변화의 평균값을 검출하는 것을 특징으로 한다.

이에, 본 발명의 유사도판별장치 및 그 동작 방법에 의하면, 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 이를 서로 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하는데 있어서의 정확도를 크게 향상시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 유사도판별장치의 개략적인 구성도.

도 2는 본 발명의 일 실시예에 따른 포르만트(Formant)를 설명하기 위한 도면.

도 3은 본 발명의 일 실시예에 따른 업 밴딩(Up Banding)을 설명하기 위한 도면.

도 4는 본 발명의 일 실시예에 따른 다운 밴딩(Down Banding)을 설명하기 위한 도면.

도 5는 본 발명의 일 실시예에 따른 바이브레이션(Vibration)을 설명하기 위한 도면.

도 6은 본 발명의 일 실시예에 따른 유사도판별장치에서의 동작 흐름을 설명하기 위한 순서도.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 대하여 설명한다.

도 1은 본 발명의 일 실시예에 따른 유사도판별장치의 구성을 도시한 도면이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 유사도판별장치는, 각 노래로부터 가수음성 및 모창음성을 추출하는 추출부(100), 추출된 가수음성 및 모창음성 각각에 대한 유사도판단그래프를 생성하는 생성부(200), 유사도판단그래프로부터 가수음성 및 모창음성 각각에 대한 피치(Pitch) 변화를 검출하는 검출부(300), 및 가수음성 및 모창음성 간의 피치 변화를 비교하여 유사도를 판별하는 판별부(400)를 포함하는 구성을 갖는다.

여기서, 추출부(100), 생성부(200), 검출부(300), 및 판별부(400)를 포함하는 유사도판별장치의 구성 전체 내지는 그 일부는, 하드웨어 또는 소프트웨어 모듈 형태로서 구현되거나, 이들 간의 조합에 의해서 구현될 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 유사도판별장치의 전술한 구성의 경우 애플리케이션을 통해서 구현할 수 있는데, 이에 유사도판별장치로서는 애플리케이션을 설치 및 실행할 수 있는 단말이 해당될 수 있다.

이에, 유사도판별장치는 스마트폰, 개인용컴퓨터, 노트북, 및 테블릿 PC 등이 해당될 수 있으며, 이에 제한되는 것이 아닌 애플리케이션의 설치 및 실행 가능한 장치는 모두 포함될 수 있을 것이다.

한편, 본 발명의 일 실시예에 따른 유사도판별장치의 경우, 사용자(서비스 이용자)들이 가수의 목소리 및 창법을 따라 하고 이를 평가할 수 있는 모창 서비스와 관련하여, 가수음성과 모창음성 간의 유사도를 판별하도록 동작하게 된다.

여기서, 가수음성은 노래를 부른 가수의 음성을 일컫는 것이며, 모창음성은 가수의 음성을 모사하여 노래를 부르는 사용자의 음성을 일컫게 된다.

실질적으로 가수음성과 모창음성 간의 유사도를 판별은 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여, 분석된 결과를 서로 비교함으로써 이루어질 수 있을 것이다.

헌데, 음원과 관련된 컴퓨팅기술의 발전과 더불어 멀티미디어 기술의 발전에도 불구하고, 가수음성과 모창음성 간의 유사도를 판별하기 위한 기존 방식의 경우, 예컨대, 음정, 박자, 템포 등의 비교적 단순한 항목에 대하여 가수음성과 모창음성을 서로 비교하는 수준에 머무르고 있는 것이 현실이다.

이처럼, 음정, 박자, 템포 등 비교적 단순한 항목에 대하여 가수음성과 모창음성을 비교하는 기존 방식의 경우, 가수음성과 모창음성 간의 유사도보다는 원곡을 얼마나 잘 따라 불렀는지 평가하는 수준에 머무른다 할 것이며, 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하는 수준에는 크게 미치지 못한다 할 것이다.

이에, 본 발명의 일 실시예에서는 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 유사도를 판별하기 위한 방안을 제안하고자 하며, 이하에서는 이를 구체적으로 설명하기로 한다.

우선, 추출부(100)는 각 노래로부터 가수음성 및 모창음성을 추출하는 기능을 수행한다.

보다 구체적으로, 추출부(100)는 가수가 음성이 녹음된 노래(#1)로부터 가수음성을 추출하고, 가수의 음성을 모사한 사용자 음성이 녹음된 노래(#2)로부터 모창음성을 추출하게 된다.

여기서, 가수음성과 모창음성이 녹음되어 있는 각 노래는 압축된 형태인 예컨대, 'MP3' 파일 형태로서 입력되게 되는데, 추출부(100)는 이렇게 입력된 각 노래의 압축을 해제하여 예컨대, 'WAV', 'PCM' 형태로 변환한 이후에 가수음성 및 모창음성을 추출하게 된다.

이때, 추출부(100)는 일련의 노이즈 제거 방식을 적용함으로써 각 노래에 녹음되어 있는 가수음성 및 모창음성을 추출하게 된다.

즉, 각 노래에는 추출하고자 하는 음성 이외에 악기의 소리가 함께 녹음되는데, 추출부(100)는 악기 소리에 해당하는 주파수 특성을 제거하는 방식을 적용하여 가수음성과 모창음성을 추출할 수 있다.

예를 들어, 악기 소리의 경우 음성과는 달리 첨예한 주파수 특성을 갖게 되며, 이러한 주파수 특성만을 노이즈로서 제거하게 되면, 각 노래에서 악기 소기가 제거된 가수음성 및 모창음성을 추출할 수 있는 것이다.

그리고, 생성부(200)는 가수음성 및 모창음성 각각에 대한 유사도판단그래프를 생성하는 기능을 수행한다.

보다 구체적으로, 생성부(200)는 추출부(100)에서 각 노래로부터 가수음성과 모창음성의 추출이 완료되면, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결하여 유사도판단그래프를 생성하게 된다.

이때, 생성부(200)는 예컨대, FFT(Fast Fourier Transformation) 등의 알고리즘을 적용하여 음성 아날로그 신호인 가수음성 및 모창음성 각각에 대하여 주파수 도메인(domain)과 시간(time) 도메인을 기준으로 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결함으로써 유사도판단그래프를 생성하게 된다.

그리고, 검출부(300)는 유사도판단그래프로부터 피치(Pitch) 변화를 검출하는 기능을 수행한다.

보다 구체적으로, 검출부(300)는 생성부(200)에서 가수음성 및 모창음성 각각에 대한 유사도판단그래프의 생성이 완료되면, 유사도판단그래프로부터 가수음성 및 모창음성 각각에 대한 피치 변화를 검출하게 된다.

이때, 검출부(300)는 시간 도메인을 기준으로 유사도판단그래프의 전 구간에 걸쳐 피치 변화를 검출할 수 있으나, 유사도 판별의 정확도를 향상시키기 위한 측면에서, 일정 시간구간을 유사도판단구간으로서 지정하여, 지정된 유사도판단구간마다의 피치 변화를 검출한다.

한편, 가수음성의 경우, 장조 또는 단조로서 그 템포가 일치하는 다수의 노래로부터 추출될 수 있다.

이처럼 다수의 노래로부터 가수음성이 추출된 경우 생성부(200)에서는 각 노래로부터 추출된 가수음성 각각에 대한 유사도판단그래프를 생성하게 되는데, 이 경우 검출부(300)는 각 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성에 대한 피치 변화의 평균값을 검출하여, 모창음성에서 검출된 피치 변화와 비교할 수 있도록 한다.

여기서, 각 유사도판단그래프에 지정되는 유사도판단구간의 경우, 서로의 음정 변화 패턴이 서로 동일하거나 유사한 구간으로 지정됨은 물론이다.

한편, 검출부(300)는 가수음성에 대한 피치 변화의 평균값을 검출하는데 있어서 각 가수음성에 가중치를 부여하게 되는데, 각 가수음성 중 라이브 음성에 보다 높은 가중치를 부여하게 된다.

이처럼, 다수의 노래로부터 추출된 가수음성의 피치 변화의 평균값을 검출하는 것은 가수음성의 독특한 습관이나 창법을 일반화시키기 위함이며, 특히 라이브 음성에 높은 가중치를 부여하는 것은, 라이브 음성이 가수의 독특한 습관이나 창법을 보다 많이 반영하기 위함이다.

유사도판단구간으로부터 검출되는 피치 변화에는 가수음성 및 모창음성 각각에서의 포르만트(Formant), 음정 변화로부터 확인되는 업 밴딩, 다운 밴딩, 및 바이브레이션 등이 포함될 수 있다.

여기서, 포르만트는 고조파 성분인 배음(Harmonic) 및 상기 배음의 피크 값들의 피치 변화를 일컫는 것으로서 가수음성 및 모창음성 각각의 음색과 관련된다.

일반적으로 유성음(有聲音)의 경우 그 음성에 대한 고유한 주파수 분포도형을 얻을 수 있는데, 모음이면 성대의 1초간의 진동수를 나타내는 기본주파수(대체로 75∼300Hz)와, 그 정수배의 대부분의 배음으로 이루어지게 된다.

도 2를 참조하면 이 주파수 스펙트럼들의 피크를 연결한 외형(Contour)들의 피크들을 낮은 것부터 차례로 제1포르만트(1st Formant), 제2포르만트(2nd Formant), 및 제3포르만트(3rd Formant)라 한다.

이것은 구강(口腔) 등의 크기에 따라서 개인차가 있으므로 다소 강하게 되거나 약하게 되거나 하는 차가 생겨, 이것이 개인의 독특한 음색이 생기는 한 원인이 되며, 특히, 제1포르만트(1st Formant)와 제1배음(1st Harmonic) 간의 주파수 차이(d)가 개인의 음색을 결정하게 된다.

업 밴딩은 지정된 시작 음정으로부터 상기 시작 음정보다 높은 음정으로 지정된 목표 음정까지 도달하기까지의 피치 변화의 형태를 일컬으며, 반대로 다운 밴딩의 경우 지정된 시작 음정으로부터 상기 시작 음정보다 낮은 음정으로 지정된 목표 음정까지 도달하기 위한 피치 변화의 형태를 일컫는다.

이러한, 업 밴딩 및 다운 밴딩의 경우 예컨대, 시작 음정에서 목표 음정으로 균일하게 상승 또는 하강하거나, 또는 시작 음정부분에서 급하게 상승 또는 하강한 이후 목표 음정으로 갈수록 완만하게 상승 또는 하강하거나, 내지는 시작 음정부분에서는 완만하게 상승 또는 하강한 이후 목표 음정 부근에서 급하게 상승 또는 하강하는 것과 같이 다양한 형태를 가질 수 있다.

바이브레이션은 음정의 높고 낮음이 반복되는 피치 변화의 형태를 일컫는 것으로서, 이러한 음정의 높고 낮음이 반복되는 반복 횟수는 사람마다 독특한 습관이나 창법으로 인해 상이해 질 수 있다.

그리고, 판별부(400)는 가수음성과 모창음성 간의 유사도를 판별한다.

보다 구체적으로, 판별부(400)는 가수음성 및 모창음성 각각에 대하여 피치 변화가 검출되는 경우, 검출된 피치 변화를 서로 비교하여, 가수음성 및 모창음성 간에 유사도를 판별하게 된다.

이때, 판별부(400)는 가수음성 및 모창음성 간에 포르만트, 업 밴딩, 다운 밴딩, 및 바이브레이션을 서로 비교함으로써, 가수음성 및 모창음성 간에 유사도를 판별할 수 있다.

우선, 포르만트의 비교를 도 2를 참조하여 설명하면, 판별부(400)는 가수음성 및 모창음성 각각에서 개인의 음색을 결정하는 제1포르만트(1st Formant)와 제1배음(1st Harmonic) 간의 주파수 차이(d)를 확인하고, 가수음성 및 모창음성 간에 확인된 주파수 차이가 서로 동일할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.

또한, 업 밴딩의 비교를 도 3을 참조하여 설명하면, 판별부(400)는 가수음성 및 모창음성 각각에서 시작 음정인 '도'로부터 목표 음정인 '라'까지 도달하는 피치 변화의 형태를 확인하고, 가수음성 및 모창음성 간에 확인된 피치 변화의 형태가 서로 일치할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.

또한, 다운 밴딩의 비교를 도 4를 참조하여 설명하면, 판별부(400)는 가수음성 및 모창음성 각각에서 시작 음정인 '도'로부터 한 옥타브 낮은 목표 음정인 '라'까지 도달하는 피치 변화의 형태를 확인하고, 가수음성 및 모창음성 간에 확인된 피치 변화의 형태가 서로 일치할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.

여기서, 업 밴딩 및 다운 밴딩에서의 피치 변화의 형태를 비교하여 유사도를 판별함에 있어서, 판별부(400)는 전체 시간구간을 단위 시간구간으로 구분하고, 각 단위 시간구간마다 가수음성 및 모창음성 간의 음정을 비교한 결과의 평균값을 전체 시간구간에서의 유사도로서 판별 수 있다.

마지막, 바이브레이션 비교를 도 5를 참조하여 설명하면, 판별부(400)는 가수음성 및 모창음성 각각에서의, 음정의 높고 낮음이 반복되는 횟수를 확인하고, 가수음성 및 모창음성 간에 확인된 반복횟수가 서로 일치할수록 유사도가 높으며, 반대로 반복횟수가 서로 차이가 커질수록 유사도가 낮은 것으로 판단할 수 있다.

한편, 바이브레이션 비교의 경우, 위에서 언급한 음정의 높고 낮음이 반복되는 횟수뿐만이 아니라, 음정의 높고 낮음이 반복되는 크기인 진폭의 크기를 함께 비교하여 유사도를 판단할 수 있다.

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 유사도판별장치는, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하고, 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하여 가수음성과 모창음성 각각의 독특한 습관이나 창법을 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하는데 있어서의 정확도를 크게 향상시킬 수 있다.

이하에서는 도 6을 참조하여 본 발명의 일 실시예에 따른 유사도판별장치에서의 동작 방법을 설명하기로 한다.

여기서, 설명의 편의를 위해 전술한 도 1 내지 도 5에 도시한 구성은 해당 참조번호를 언급하여 설명하겠다.

우선, 추출부(100)는 가수가 음성이 녹음된 노래(#1)로부터 가수음성을 추출하고, 가수의 음성을 모사한 사용자 음성이 녹음된 노래(#2)로부터 모창음성을 추출한다(S100).

여기서, 가수음성과 모창음성이 녹음되어 있는 각 노래는 압축된 형태인 예컨대, 'MP3' 파일 형태로서 입력되게 되는데, 이에 추출부(100)는 이렇게 입력된 각 노래의 압축을 해제하여 예컨대, 'WAV', 'PCM' 형태로 변환한 이후에 가수음성 및 모창음성을 추출하게 된다.

이때, 각 노래에는 추출하고자 하는 음성 이외에 악기의 소리가 함께 녹음되는데, 추출부(100)는 일련의 노이즈 제거 방식을 적용하여 악기 소리에 해당하는 주파수 특성을 제거함으로써 가수음성과 모창음성을 추출할 수 있다.

그리고 나서, 생성부(200)는 추출부(100)에서 각 노래로부터 가수음성과 모창음성의 추출이 완료되면, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 검출하고, 검출된 각 피크 값들을 연결하여 유사도판단그래프를 생성한다(S200).

그런 다음, 검출부(300)는 생성부(200)에서 가수음성 및 모창음성 각각에 대한 유사도판단그래프의 생성이 완료되면, 유사도판단그래프로부터 가수음성 및 모창음성 각각에 대한 피치 변화를 검출하게 된다(S300-S400).

한편, 다수의 노래로부터 가수음성이 추출된 경우 생성부(200)에서는 각 노래로부터 추출된 가수음성 각각에 대한 유사도판단그래프를 생성하게 되는데, 이 경우 검출부(300)는 각 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성에 대한 피치 변화의 평균값을 검출하여, 모창음성에서 검출된 피치 변화와 비교할 수 있도록 한다(S300, S500).

이때, 검출부(300)는 가수음성에 대한 피치 변화의 평균값을 검출하는데 있어서 각 가수음성에 가중치를 부여하게 되는데, 각 가수음성 중 라이브 음성에 보다 높은 가중치를 부여하게 된다.

이처럼, 다수의 노래로부터 추출된 가수음성의 피치 변화의 평균값을 검출하는 것은 가수음성의 독특한 습관이나 창법을 일반화시키기 위한 것인데, 특히 라이브 음성에 높은 가중치를 부여하는 것은, 라이브 음성이 가수의 독특한 습관이나 창법을 보다 많이 반영하기 위함이다.

이후, 판별부(400)는 가수음성 및 모창음성 각각에 대하여 피치 변화가 검출되는 경우, 검출된 피치 변화를 서로 비교하여, 가수음성 및 모창음성 간에 유사도를 판별하게 된다(S600-S800).

이때, 판별부(400)는 가수음성 및 모창음성 간에 포르만트(음색), 업 밴딩, 다운 밴딩, 및 바이브레이션을 서로 비교함으로써, 가수음성 및 모창음성 간에 유사도를 판별할 수 있다.

우선, 도 2를 참조하면 포르만트의 경우 가수음성 및 모창음성 각각에서 개인의 음색을 결정하는 제1포르만트(1st Formant)와 제1배음(1st Harmonic) 간의 주파수 차이(d)를 확인하고, 가수음성 및 모창음성 간에 확인된 주파수 차이가 서로 동일할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.

다음, 도 3을 참조하면 업 밴딩의 경우, 가수음성 및 모창음성 각각에서 시작 음정인 '도'로부터 목표 음정인 '라'까지 도달하는 피치 변화의 형태를 확인하고, 가수음성 및 모창음성 간에 확인된 피치 변화의 형태가 서로 일치할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.

또한, 도 4를 참조하면, 다운 밴딩의 경우, 가수음성 및 모창음성 각각에서 시작 음정인 '도'로부터 한 옥타브 낮은 목표 음정인 '라'까지 도달하는 피치 변화의 형태를 확인하고, 가수음성 및 모창음성 간에 확인된 피치 변화의 형태가 서로 일치할수록 유사도가 높으며, 반대로 차이가 서로 상이할수록 유사도가 낮은 것으로 판단할 수 있다.

마지막, 도 5를 참조하면, 바이브레이션의 경우, 가수음성 및 모창음성 각각에서의, 음정의 높고 낮음이 반복되는 횟수를 확인하고, 가수음성 및 모창음성 간에 확인된 반복횟수가 서로 일치할수록 유사도가 높으며, 반대로 반복횟수가 서로 차이가 커질수록 유사도가 낮은 것으로 판단할 수 있다.

한편, 본 발명의 일 실시예에 따른 유사도판별장치에서의 동작 방법을 설명하는데 언급된 각 단계에서는, 동일한 시점에 가수음성과 모창음성으로부터 피크 값 및 피치 변화를 검출하여 서로 간에 유사도를 판별하는 것으로 설명되었지만, 이와는 달리 가수음성의 경우 검출된 피크 값 및 피치 변화의 경우 데이터베이스에 사전에 등록된 상태에서, 다수의 모창음성을 입력받아, 각 모창음성의 피크 값 및 피치 변화를 검출하고, 검출된 값을 데이터베이스에 등록된 가수음성과 비교하는 구성 또한 가능하다.

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 유사도판별장치의 동작 방법은, 가수음성 및 모창음성 각각에 대하여 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하고, 상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하여 가수음성과 모창음성 각각의 독특한 습관이나 창법을 비교함으로써 가수음성과 모창음성 간의 유사도를 판별하는데 있어서의 정확도를 크게 향상시킬 수 있다.

한편, 여기에 제시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.

본 발명의 유사도판별장치 및 그 동작 방법에 따르면, 가수음성과 모창음성 각각의 독특한 습관이나 창법을 분석하여 이를 서로 비교함으로써 가수음성과 모창음성 간의 유사도를 판별한다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.

Claims

가수음성 및 모창음성 각각으로부터 검출되는 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하는 생성부;

상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하는 검출부; 및

상기 가수음성의 피치 변화와 상기 모창음성의 피치 변화를 비교하여 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 판별부를 포함하는 것을 특징으로 하는 유사도판별장치.
제 1 항에 있어서,

상기 판별부는,

상기 검출된 피치 변화에 고조파 성분인 배음 및 상기 배음의 피크 값들의 피치 변화인 포르만트가 포함되는 경우, 상기 가수음성 및 상기 모창음성 각각에서의 첫 번째 배음의 피크와 첫 번째 포르만트의 피크 간의 주파수 차이가 서로 동일할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 하는 유사도판별장치.
제 1 항에 있어서,

상기 검출된 피치 변화에는,

제1시작 음정으로부터 상기 제1시작 음정보다 높은 제1목표 음정까지의 피치 변화 형태인 업 밴딩, 제2시작 음정으로부터 상기 제2시작 음정보다 낮은 제2목표 음정까지의 피치 변화 형태인 상기 다운 밴딩, 및 음정의 높고 낮음이 반복되는 피치 변화의 형태인 바이브레이션 중 적어도 하나의 음정 변화가 포함되는 것을 특징으로 하는 유사도판별장치.
제 3 항에 있어서,

상기 판별부는,

상기 가수음성 및 상기 모창음성 간에, 상기 업 밴딩, 및 상기 다운 밴딩 중 적어도 하나의 피치 변화 형태가 서로 일치할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 하는 유사도판별장치.
제 3 항에 있어서,

상기 판별부는,

상기 가수음성의 바이브레이션 및 상기 모창음성의 바이브레이션 간에, 음정의 높고 낮음이 반복되는 횟수 차이가 적거나, 또는 상기 음정의 높고 낮음이 반복되는 진폭 차이가 적을수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 하는 유사도판별장치.
제 1 항에 있어서,

상기 검출부는,

템포가 서로 일치하며, 각각의 가수음성이 포함된 2 이상의 노래에 대하여, 상기 유사도판단그래프가 각각 생성되는 경우, 상기 각각의 유사도판단그래프로부터 각 가수음성의 피치 변화에 대한 평균값을 검출하여, 상기 피치 변화에 대한 평균값을 상기 모창음성으로부터 검출된 피치 변화와 비교하도록 하는 것을 특징으로 하는 유사도판별장치.
제 6 항에 있어서,

상기 검출부는,

상기 2 이상의 노래 중 라이브 가수음성이 포함된 노래에 보다 높은 가중치를 부여하여 상기 피치 변화의 평균값을 검출하는 것을 특징으로 하는 유사도판별장치.
가수음성 및 모창음성 각각으로부터 검출되는 주파수 피크 값들을 연결하여 유사도판단그래프를 생성하는 생성단계;

상기 유사도판단그래프에 지정된 유사도판단구간에서의 상기 가수음성 및 상기 모창음성 각각에 대한 피치 변화를 검출하는 검출단계; 및

상기 가수음성의 피치 변화와 상기 모창음성의 피치 변화를 비교하여 상기 가수음성 및 상기 모창음성 간에 유사도를 판별하는 판별단계를 포함하는 것을 특징으로 하는 유사도판별장치의 동작 방법.
제 8 항에 있어서,

상기 판별단계는,

상기 검출된 피치 변화에 고조파 성분인 배음 및 상기 배음의 피크 값들의 피치 변화인 포르만트가 포함되는 경우, 상기 가수음성 및 상기 모창음성 각각에서의 첫 번째 배음의 피크와 첫 번째 포르만트의 피크 간의 주파수 차이가 서로 동일할수록 상기 가수음성 및 상기 모창음성 간에 유사도가 높은 것으로 판별하는 것을 특징으로 하는 유사도판별장치의 동작 방법.
제 8 항에 있어서,

상기 검출단계는,

템포가 서로 일치하며, 각각의 가수음성이 포함된 2 이상의 노래에 대하여, 상기 유사도판단그래프가 각각 생성되는 경우, 상기 각각의 유사도판단그래프로부터 각 가수음성의 피치 변화에 대한 평균값을 검출하여, 상기 피치 변화에 대한 평균값을 상기 모창음성으로부터 검출된 피치 변화와 비교하도록 하는 것을 특징으로 하는 유사도판별장치의 동작 방법.
제 10 항에 있어서,

상기 검출단계는,

상기 2 이상의 노래 중 라이브 가수음성이 포함된 노래에 보다 높은 가중치를 부여하여 상기 피치 변화의 평균값을 검출하는 것을 특징으로 하는 유사도판별장치의 동작 방법.