KR20040015605A

KR20040015605A - 가상노래 합성장치 및 방법

Info

Publication number: KR20040015605A
Application number: KR1020020047889A
Authority: KR
Inventors: 홍광석
Original assignee: 홍광석
Priority date: 2002-08-13
Filing date: 2002-08-13
Publication date: 2004-02-19

Abstract

본 발명에 따른 가상노래 방법은 유입된 가사의 문장을 분석하여 제1운율제어데이터를 생성하고, 음운 법칙에 따라 음원데이터베이스에서 해당 음원을 선택하는 단계; 악보데이터를 분석하여 악보에 따른 음의 고저와 피치, 음의 길이를 포함하는 제2운율제어데이터를 생성하는 단계; 상기 선택된 해당 음원을 제1운율제어데이터에 포함된 음의 에너지 정보와 상기 제2운율제어데이터로 운율을 제어하는 단계; 및 상기 운율제어된 디지털 합성 음원을 음성파형으로 변환하는 단계;를 포함함을 특징으로 한다.

본 발명에 의하면, 가사를 음성합성하여 음악악보 데이터에 따라 합성된 음성의 운율을 제어함으로써 합성된 음성으로 가상의 노래를 출력하고, 저장한 사용자의 음성이나 임의의 음성을 반주데이터로 운율제어하여 노래가락으로 출력할 수 있다. 따라서, 학습기나 장난감 등에 적용할 경우 사용자가 자신의 음성으로 된 노래가락을 들을 수 있어 보다 흥미를 갖도록 하며 음감의 이해와 학습효과를 제고시킬 수 있다. 또한, 웹사이트 운영자는 인터넷 상에서 가사와 악보 데이터만으로 설정한 캐릭터의 사이버가수를 통하여 네티즌들에게 다양한 가상노래 서비스를 제공할 수 있다.

Description

가상노래 합성장치 및 방법{Method and apparatus for synthesizing virtual song}

본 발명은 가상노래 합성에 관한 것으로서, 보다 상세하게는 노래가사의 문자음성합성(TTS: text to speech)을 이용하여 악보신호에 따라 운율을 갖는 가상노래를 출력하거나, 반주신호에 따라 임의의 저장된 발성음으로 노래 가락을 출력하는 가상노래 합성방법 및 장치에 관한 것이다.

음성합성기술의 발달로 PC에 입력된 텍스트 문자를 합성한 음성으로 손쉽게 출력하여 청각장애자들이 텍스트문자를 점자로 읽지 않더라도 편리하게 합성음으로 들을 수 있으며, 자동응답서비스 등에 다양하게 활용되고 있다. 또한 PC에 접속하여 악보데이터를 입력하고 PC 화면상에서 연주기를 선택하면 악보 데이터에 따라 선택된 가상의 연주기들의 연주음이 화음을 이루어 출력되는 연주장치가 있어, 작곡가가 작곡중인 곡의 연주 음악을 들어가며 원하는 곡조로 수정할 수 있어 작곡에 상당한 도움이 되고 있다.

그러나 이러한 장치들은 단순히 문자를 음성으로 변환시키거나 악보 데이터에 따라 선택된 연주기 타입으로 연주하는 기능만 있어, 문자음성합성기술과 악보데이터를 이용하여 사용자가 직접 즐길 수 있는 보다 다양한 장치 및 방법이 요구되어 왔다.

본 발명은 상기 요구에 부응하여 창출한 것으로서, 입력된 가사에 따라 합성된 음성으로 악보데이터에 따라 노래를 출력하여 감상하고 노래를 배울 수 있는 가상노래 합성장치 및 방법을 제공하는 데 목적이 있다.

또한, 본 발명의 다른 목적은 사전에 저장된 임의의 소리를 반주나 악보데이터에 맞추어 노래가락으로 출력하는 가상노래 합성방법을 제공하는 데 있다.

도 1은 본 발명의 일실시예에 따른 문자음성합성기술을 이용한 가상노래 합성방법을 설명하기 위한 블록도이다.

도 2는 본 발명의 이실시예에 따른 임의의 발성음을 이용한 가상노래 합성방법을 설명하기 위한 블록도이다.

도 3은 도 2에 도시된 운율제어부에서 수행되는 업샘플링과 다운샘플링의 예를 설명하기 위한 블록도이다.

도 4는 정현파를 2배로 업샘플링한 후 시간축에 재배열한 파형의 예를 설명하기 위한 그래프이다.

도 5는 원신호를 리샘플링한 후 시간축에 재배열하여 원하는 주기의 신호로 변환과정을 설명하기 위한 그래프이다.

상기 목적을 달성하기 위한 본 발명에 따른 가상노래 합성장치는,

텍스트 데이터로 된 가사를 유입하여 상기 가사의 문장에 포함된 단어의 품사정보를 출력하고 인접한 음절간의 음운을 분석하여 발음표기변환 제어데이터와 억양/지속시간 설정제어 데이터를 출력하는 언어처리부; 상기 억양/지속시간 설정제어 데이터를 유입하여 음의 에너지 및 억양지속시간 설정제어를 하는 제1운율제어신호를 출력하는 억양/지속시간 설정부; 유입한 악보 데이터를 분석하여 음표에 따른 음의 고저와 피치, 음의 길이를 포함하는 제2운율제어데이터를 출력하는 악보분석부; 상기 발음표기변환 제어데이터에 따라 음원데이터베이스에서 해당 음원을 선택하여 출력하는 음원선택부; 상기 제1, 제2운율데이터로 상기 선택된 음원에 매칭하여 운율을 제어하는 운율제어부; 및 상기 운율제어되어 합성된 디지털 음원을 아날로그 신호로 변환하는 음성파형 변환부;를 포함함을 특징으로 한다.

또한, 상기 운율제어부는 악보에 대한 상기 제2운율제어데이터를 우선순위로 음원의 운율을 제어하고, 상기 제1운율제어데이터에서는 포함된 음의 에너지 데이터만을 이용하여 운율을 제어하며, 상기 제2운율제어데이터가 입력되지 않을 경우에는 입력된 문자에 대한 통상의 문자합성 기능을 수행함을 특징으로 한다.

또한, 상기 운율제어부의 악보에 따른 음의 길이 조정은 음원의 안정된 모음부분의 중간지점에 해당 피치의 평균값 파형을 삽입하거나 일정 부분을 삭제하여 조정함을 특징으로 한다.

본 발명의 다른 목적을 달성하기 위한 가상노래 합성방법은,

유입된 가사의 문장에 포함된 품사를 분석하여 제1운율제어데이터를 생성하고, 음운 법칙에 따라 음원데이터베이스에서 해당 음원을 선택하는 단계; 악보데이터를 분석하여 악보에 따른 음의 고저와 피치, 음의 길이를 포함하는 제2운율제어데이터를 생성하는 단계; 상기 선택된 음원에 매칭하여 제1운율제어데이터에 포함된 음의 에너지 정보와 상기 제2운율제어데이터로 상기 음원의 운율을 제어하는 단계; 및 상기 운율제어된 디지털 합성 음원을 음성파형으로 변환하는 단계;를 포함함을 특징으로 한다.

본 발명의 또 다른 목적을 달성하기 위한 가상노래 합성장치는, 소리를 입력하는 마이크; 상기 입력된 음을 저장하는 음저장부; 유입된 악보 또는 반주 데이터를 분석하여 음표에 따른 음의 고저와 피치, 음의 길이를 포함하는 운율제어신호를 출력하는 악보/반주 분석부; 상기 음저장부의 음을 리드하여 상기 운율제어신호에 따라 매칭시켜 운율을 제어하여 출력하는 운율제어부; 및 상기 운율제어부에서 출력된 음을 음성파형으로 출력변환하여 출력하는 음성파형변환부;를 포함함을 특징으로 한다.

또한, 상기 운율제어부는 운율제어신호의 피치에 따라 상기 음을 리샘플링을 하고 시간축에 재배열하여 설정함으로써 음의 피치를 조정함을 특징으로 한다.

이하, 본 발명의 실시예를 첨부 도면을 참조하여 설명하기로 한다.

도 1은 본 발명의 일실시예에 따른 문자음성합성기술을 이용한 가상노래 합성장치를 설명하기 위한 블록도이다.

도 1에서, 입력된 가사의 문자를 유입하여 약어나 품사에 따른 억양이나 인접한 문자 간의 발음의 변환을 제어하는 언어처리부(10)와, 상기 언어처리부(10)에서 출력되는 품사의 분석 데이터를 유입하여 제1운율제어신호를 출력하는 억양 지속시간설정부(12), 악보 데이터를 유입하여 음의 지속시간, 피치주파수를 포함하는 운율제어데이터를 출력하는 악보분석부(20), 상기 언어처리부(10)의 발음표기변환 제어데이터와 상기 억양/지속시간 설정부(12)와 악보분석부(20)로부터 각각 제1, 제2운율제어데이터를 유입하여 가사의 적용되는 해당 음원을 선택하여 음성으로 출력하는 음성신호처리부(30)를 포함한다.

상기 언어처리부(10)는 텍스트 또는 가사의 문자에 포함된 약자나 숫자 등의 음차 변환하는 문자전처리부(100)와 전처리된 가사의 문장에 품사사전을 이용하여 문장을 분석하는 문장분석부(102), 불규칙 음운변동사전에서 구개음화, 자음접변 등의 음운학적 정보를 고려하여 해당 음원을 선택할 수 있도록 음원선택제어 데이터를 출력하는 발음표기변환부(104)를 포함한다. 또한, 상기 음성신호처리부(30)는 음원을 저장하는 음원 데이터베이스(304), 발음표기변환부(104)에서 출력된 음원선택제어 데이터에 따라 상기 음원데이터베이스(304)에서 해당 음원을 선택하는 음원선택부(302), 상기 악보분석부(20)와 억양/지속시간 설정부(12)의 운율제어데이터를 유입하고 음원선택부(302)로 선택한 음원을 유입하여 해당 음원을 악보에 일치하는 음의 에너지와 음율로 제어하는 음율제어부(306), 상기 음율이 제어된 음원의 디지털데이터를 아날로그신호로 변환하는 음성파변환부(308), 필요에 따라 바이브레이션 등의 음색을 제어하는 음색제어부(310)를 포함한다.

먼저, 가사 데이터가 입력되면 문장전처리부(100)에서는 가사에 포함된 약자나 영문등을 식별하여 해당 음으로 변환이 용이하도록 한다. 문장분석부(102)는 전처리된 문장의 텍스트 단어의 품사를 분석한 데이터를 억양/지속시간설정부(12)에 전송한다. 억양/지속시간설정부(12)에서는 유입된 품사정보를 기준으로 억양과 지속시간 및 음의 에너지를 포함하는 제1운율제어데이터를 운율제어부(306)로 전송한다.

발음표기 변환부(104)는 발음사전을 이용하여 가사에서 합성되는 음이 인접한 음과 연결되는 과정에서 나타날 수 있는 구개음화와 자음접변, 불규칙 음운에 대한 정보를 분석하여 음원선택부(302)로 분석데이터를 전송하면, 음원선택부(302)는 음원데이터베이스(304)에서 해당 음원을 선택하여 운율제어부(306)에 전송한다.

한편, 악보분석부(20)는 유입된 악보데이터를 분석하여 음의 지속시간, 피치인 주파수, 고저음을 포함하는 제2운율제어데이터를 운율제어부(306)로 전송한다. 예컨대, 음의 지속시간에 있어서는 악보에서 온음표에 대하여는 1/16분의 시간 길이를 갖도록 하고, 2분음표는 온음표의 절반, 4분음표는 2분음표의 절반, 8분음표는 4분음표의 절반이 되도록 음의 지속시간이 포함된 제2운율제어데이터를 출력한다.

운율제어부(306)는 제2운율제어데이터가 없이 단지 제1운율제어데이터만 입력되면 단순한 텍스트가 입력된 것으로 판단하여 통상의 TTS의 시스템에서와 같이 제1운율제어데이터로서 운율을 제어한다. 제1, 2운율제어데이터가 동시에 유입되면 운율제어부(306)는 제1운율제어데이터에 포함된 가사의 문장에서 분석된 음의 에너지(음의 세기)정보와 제2운율제어데이터에 따라 음원선택부(302)에서 선택하여 제공하는 해당 음원에 매칭하여 운율을 제어한다.

또한, 운율제어부(306)에서는 악보 음표에 따라 대응된 가사의 합성음 지속시간을 제어할 때 해당 합성음의 모음부의 중간지점은 피치의 변화가 거의 없는 주기적인 안정된 파형을 갖고 있으므로, 이러한 모음의 안정된 구간에서 음원데이터 가공시 음원의 파형을 피치단위로 표시하여 모음부분의 중간지점에 피치단위로 삭제하여 음의 길이를 줄이거나 음의 소정의 길이로 늘릴 경우에는 모음부분의 중간지점의 피치 평균값의 파형을 삽입하여 음의 길이를 조절한다. 이에 따라, 피치의 변화가 거의 없는 안정된 모음부의 일부분을 삭제하거나 삽입함으로써 음의 길이를 조정할 때 가공된 음이 자연스럽게 제어되도록 한다.

운율제어부(306)에서 운율이 제어되어 출력되는 디지털 노래데이터는 음성파변환부(308)를 통하여 사람의 귀로 직접 들을 수 있는 아날로그신호로 변환되며 음색제어부(310)에서는 사용자의 선택사양에 따라 출력되는 가상노래의 주파수를 변형시켜 다양한 바이브레이션 등 노래의 기교를 살려서 출력할 수 있도록 한다. 따라서, 일반적인 문자음성합성 기능뿐만 아니라 가사와 악보 데이터에 따라 합성된 가상노래를 사용자가 감상할 수 있다.

도 2는 본 발명의 제2실시예에 따른 임의의 발성음을 이용한 가상노래 합성장치를 설명하기 위한 블록도이다.

도 2는 임의의 음성을 입력하는 마이크(22)와, 마이크로 입력된 데이터를 저장하는 음저장부(24), 반주 또는 악보 데이터를 유입하여 해당 반주나 악보데이터를 분석하여 운율제어 데이터를 출력하는 반주/악보분석부(26)와 음저장부(24)에 저장된 음성데이터를 리드하여 운율제어 데이터에 따라 음성의 고저 및 지속시간등 운율에 맞추어 노래가락 데이터를 출력하는 운율제어부(28)와 노래가락의 디지털데이터를 아날로그신호로 출력하는 음성파변환부(29)를 포함한다.

사용자가 음성입력부인 마이크(22)에 예컨대 "아"소리를 입력하면, 입력된 음성신호는 음저장부(24)에 저장된다. 이때, 악보 또는 반주데이터를 악보/반주 분석부(26)에 입력시키면 악보/반주 분석부(26)는 악보를 분석한 운율제어신호를 운율제어부(28)로 출력한다.

운율제어부(28)는 음저장부(24)에 저장된 음성신호를 리드하여 악보/반주 분석부(26)에서 출력되는 운율제어 데이터에 따라 운율을 제어한다. 운율제어부(26)는 음저장부(24)에 저장된 임의의 음성의 피치를 구한 후에 반주에서 요구되는 원하는 음의 피치로 변환하기 위해서 리샘플링 기법을 적용한 후에 시간축을 재배열하거나 분석합성방법 등에 의하여 원하는 피치의 소리로 변환시킨다. 또한 음의 길이만큼 음의 모음부를 위주로 반복함으로써 원하는 길이만큼 지속한다.

도 3에서 주기 T의 음성신호를 L배로 업샘플링하는 업샘플링부(32)를 통과한 후 시간축에 재배열하면 주기 TL인 음성신호가 된다. 이 업샘플링된 신호를 로우패스 디지털필터로 통과시키고, 다운샘플링부(36)에서 입력된 신호를 M배로 다운샘플링한 다음 시간축에 재배열하면 TL/M 주기의 음성신호가 출력된다.

도 4는 정현파를 2배로 업샘플링한 후 시간축에 재배열한 파형의 예를 설명하기 위한 그래프로서, 업샘플링을 2배로 하여 샘플링한 후 이를 동일한 원신호의샘플간격으로 재배열하면 원 정현파 주기의 2배가 되는 정현파로 변환된다.

도 5는 도 3의 블록도에서 처리되는 신호의 파형의 예로서, 도시된 바와 같이 입력된 원 신호를 운율제어데이터에 따라 서로 다른 소정의 배율로 업샘플링과 다운샘플링한 후 시간축에 재배열하면 원하는 주기의 신호를 얻을 수 있다. 예컨대, 업샘플링의 배율이 L이고 다운샘플링의 배율이 M으로 설정되면 원신호 즉 문자합성신호 주기는 T_PL/M으로 조정된다. 이 경우, L>M인 경우에는 주기가 입력된 신호보다 크게되고 L<M인 경우에는 주기가 작은 신호로서 출력된다.

음성파변환부(29)는 운율이 제어되어 반주곡이나 악보에 맞추어 신호처리된 디지털신호를 아날로그신호의 음성 또는 임의의 소리의 파형으로 출력한다.

이상 본 발명의 바람직한 실시예에 대해 상세히 기술하였지만, 본 발명이 속하는 기술 분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구 범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형 또는 변경하여 실시할 수 있음을 알 수 있을 것이다. 따라서 본 발명의 앞으로의 실시예의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.

본 발명에 따르면, 텍스트로된 가사를 음성합성하여 음악악보 데이터에 따라 합성된 음성의 운율을 제어함으로써 합성된 음성으로 가상의 노래를 출력할 수 있다. 또한, 사용자나 임의의 음성을 저장하여 반주 및 악보데이터에 따라 저장된 음성을 운율제어하여 노래가락으로 출력할 수 있다. 따라서, 학습기나 장난감 등에 적용할 경우 사용자가 자신의 음성으로 된 노래가락을 들을 수 있어 보다 흥미를갖도록 하며 음감의 이해와 학습효과를 제고시킬 수 있다.

또한, 웹사이트 운영자는 인터넷 상에서 가사와 악보 데이터만으로 설정한 캐릭터의 사이버가수를 통하여 네티즌들에게 다양한 가상노래 서비스를 제공할 수 있다.

Claims

텍스트 데이터로 된 가사를 유입하여 상기 가사의 문장에 포함된 단어의 품사정보를 출력하고 인접한 음절간의 음운을 분석하여 발음표기변환 제어데이터와 억양/지속시간 설정제어 데이터를 출력하는 언어처리부;

상기 억양/지속시간 설정제어 데이터를 유입하여 음의 에너지 및 억양지속시간 설정제어를 하는 제1운율제어신호를 출력하는 억양/지속시간 설정부;

유입한 악보 데이터를 분석하여 음표에 따른 음의 고저와 피치, 음의 길이를 포함하는 제2운율제어데이터를 출력하는 악보분석부;

상기 발음표기변환 제어데이터에 따라 음원데이터베이스에서 해당 음원을 선택하여 출력하는 음원선택부;

상기 제1, 제2운율데이터로 상기 선택된 음원에 매칭하여 운율을 제어하는 운율제어부; 및

상기 운율제어되어 합성된 디지털 음원을 아날로그 신호로 변환하는 음성파형 변환부;를 포함함을 특징으로 하는 문자음성 합성을 이용한 가상노래 장치.
제 1항에 있어서,

상기 운율제어부는 악보에 대한 상기 제2운율제어데이터를 우선순위로 음원의 운율을 제어하고, 상기 제1운율제어데이터에서는 포함된 음의 에너지 데이터만을 이용하여 운율을 제어하며, 상기 제2운율제어데이터가 입력되지 않을 경우에는 입력된 문자에 대한 통상의 문자합성 기능을 수행함을 특징으로 하는 문자합성을 이용한 가상노래 장치.
제 1항에 있어서,

상기 운율제어부의 악보에 따른 음의 길이 조정은 음원의 안정된 모음부분의 중간지점에 해당 피치의 평균값 파형을 삽입하거나 일정 부분을 삭제하여 조정함을 특징으로 하는 문자합성을 이용한 가상노래 장치.
유입된 가사의 문장에 포함된 품사를 분석하여 제1운율제어데이터를 생성하고, 음운 법칙에 따라 음원데이터베이스에서 해당 음원을 선택하는 단계;

악보데이터를 분석하여 악보에 따른 음의 고저와 피치, 음의 길이를 포함하는 제2운율제어데이터를 생성하는 단계;

상기 선택된 음원에 매칭하여 제1운율제어데이터에 포함된 음의 에너지 정보와 상기 제2운율제어데이터로 상기 음원의 운율을 제어하는 단계; 및

상기 운율제어된 디지털 합성 음원을 음성파형으로 변환하는 단계;를 포함함을 특징으로 하는 문자음성합성을 이용한 가상노래 방법.
소리를 입력하는 마이크;

상기 입력된 음을 저장하는 음저장부;

유입된 악보 또는 반주 데이터를 분석하여 음표에 따른 음의 고저와 피치, 음의 길이를 포함하는 운율제어신호를 출력하는 악보/반주 분석부;

상기 음저장부의 음을 리드하여 상기 운율제어신호에 따라 매칭시켜 운율을 제어하여 출력하는 운율제어부; 및

상기 운율제어부에서 출력된 음을 음성파형으로 출력변환하여 출력하는 음성파형변환부;를 포함함을 특징으로 하는 가상노래 합성방법.
제 5항에 있어서,

상기 운율제어부는 운율제어신호의 피치에 따라 상기 음을 리샘플링을 하고 시간축에 재배열하여 설정함으로써 음의 피치를 조정함을 특징으로 하는 가상노래 합성방법.