KR20090059594A

KR20090059594A - 음성 정보를 가지는 음악 파일 생성 방법 및 장치

Info

Publication number: KR20090059594A
Application number: KR1020070126538A
Authority: KR
Inventors: 김철하
Original assignee: 엘지전자 주식회사
Priority date: 2007-12-07
Filing date: 2007-12-07
Publication date: 2009-06-11

Abstract

본 발명은 음악 파일에 대한 정보를 음성 정보로 생성하여 음악 파일에 포함되도록 합성하는 음성 정보를 가지는 음악 파일 생성 방법 및 장치에 관한 것이다.

본 발명에 따른 음성 정보를 가지는 음악 파일 생성 방법은 음악파일에 대한 정보가 입력되는 단계; 상기 음악파일에 대한 정보를 분석하는 단계; 상기 음악파일에 대한 정보가 음성 정보로 생성되는 단계; 상기 음성 정보와 상기 음악파일을 합성하는 단계; 및 상기 음성 정보가 포함된 음악 파일이 생성되는 단계를 포함하는 것으로서, 음악 파일에 음성 정보를 포함하도록 함으로서, 음악파일에 대한 정보를 음성으로 쉽게 확인할 수 있는 효과가 있다.

음성 합성, 음악 파일 정보, 음성 정보, 파일 합성

Description

음성 정보를 가지는 음악 파일 생성 방법 및 장치{Method and Apparatus for creating Music file including sound information}

도 1은 본 발명의 바람직한 실시 예에 따른 음성 정보 생성 장치의 구성을 나타낸 블록도.

도 2는 본 발명의 바람직한 실시 예에 따른 음악 파일에 대한 정보를 음성 정보로 생성하는 과정을 나타낸 흐름도.

도 3은 본 발명의 바람직한 실시 예에 따른 후지사키 모델의 피치 설정을 나타낸 도면.

도 4는 본 발명의 바람직한 실시 예에 따른 음악 파일에 대한 정보를 음성 정로 생성하여 음악 파일에 포함되어 생성하는 과정을 나타낸 흐름도.

《도면의 주요부분에 대한 부호의 설명》

100...단말 장치 102...키 입력부

104...메모리부 106...언어 처리부

108...운율 제어부 110...음성 생성부

112...표시부 114...오디오 처리부

116...제어부

엠피쓰리(MP3)와 같은 음악 파일에는 해당 음악에 대한 정보를 담고 있는데, 아이디쓰리테그(ID3tag)를 이용하여 곡명이나 저작자, 음악 채널 등의 정보를 추가하기 위해서 표준적으로 사용되고 있는 형식. 1.1버전까지는 규격이 정해져 있으며, 대부분의 MP3 재생 소프트웨어에 대응하고 있다.

새로운 버전으로 ‘ID3v2’라는 ID3 태그 변형판도 등장해서 이용이 시작되었다.

그러나 이용할 수 있는 문자·숫자의 제한 철폐, 유니코드에 대응 등을 시작으로 확장을 행한 결과 ID3v2 형식의 MP3 데이터는 대응 플레이어로만 재생할 수 있다.

단말기에서 지원되고 있는 음악 플레이어에는 상기 ID3tag를 이용하여 해당 음악 정보를 확인할 수 있고, 사용자가 원하는 내용으로 수정이 가능하다.

이동중에 휴대 단말기를 이용하여 음악을 들을 경우, 현재 재생중인 음악의 제목이나 가수의 이름을 확인하고 싶은 경우가 종종 생기게 된다.

이때, 가방이나 주머니에 소지하고 있는 경우에는 직접 단말기를 꺼내서 단말기에 구비된 엘시디창을 이용하여 정보를 확인하게 된다.

운전중이거나 조깅을 하는 경우와 같이 쉽게 단말기 창을 볼 수 없는 경우에 는 확인하기에 불편함이 따른다.

한편, 텍스트 기반의 데이터를 음성 데이터로 변환하여 이용하기 위해서는 TTS(Text-to-Speech)장치를 이용하여 새로운 음성 파일을 생성하거나, 재생하도록 한다.

최근에는 이동 통신 단말기와 멀티 미디어 재생기 등에 TTS 기능을 탑재하여 문자를 음성으로 읽어주거나 어학기 등에 적용하여 영어를 텍스트로 입력하면 음성으로 출력되도록 한다.

하지만, 한글에 대한 음성을 출력할 때는 특히, 음소, 음절 등의 연결시 상호 조음현상의 처리 및 자연스러운 운율 처리 등이 아직 미흡하여 현재까지는 제한 어휘합성 방법에 의하여 음질이 떨어지는 실정이다.

본 발명의 목적은 음악 파일의 정보를 음성 정보를 통해 확인할 수 있도록 하는 음성 정보를 가지는 음악 파일 생성 방법 및 장치를 제공함에 있다.

본 발명의 다른 목적은 기존에 보유된 텍스트 기반의 음원 정보를 TTS를 이용하여 음악 파일에 음성 정보가 포함되도록 하는 음성 정보를 가지는 음악 파일 생성 방법 및 장치를 제공함에 있다.

본 발명의 또 다른 목적은 자연스러운 음원 정보를 생성하여 음악 파일의 음질과 동일하게 합성하도록 하는 음성 정보를 가지는 음악 파일 생성 방법 및 장치를 제공함에 있다.

상기한 목적을 달성하기 위한 본 발명에 따른 음성 정보를 가지는 음악 파일 생성 방법은, 음악파일에 대한 정보가 입력되는 단계; 상기 음악파일에 대한 정보를 분석하는 단계; 상기 음악파일에 대한 정보가 음성 정보로 생성되는 단계; 상기 음성 정보와 상기 음악파일을 합성하는 단계; 및 상기 음성 정보가 포함된 음악 파일이 생성되는 단계를 포함하는 것을 특징으로 한다.

하나의 예로써, 상기 음악파일에 대한 정보가 음성 정보로 생성되는 단계는, 상기 음악 파일 정보를 음운 기호열로 변환하는 입력 문장 처리 단계; 상기 음운의 결합으로 인한 음운 변동 발생시의 규칙적이거나 불규칙적인 음운변동이 적용된 발음 사전에 따른 소리를 기호열로 표시하는 발음규칙 처리 단계; 자연스러운 리듬과 템포의 부여를 위해 연속음성에 대한 음운의 지속 시간을 조사하는 길이 제어 단계; 합성음에 자연성을 주기 위한 억양 제어 단계; 저장된 음원 데이터를 이용하여 음성 정보를 생성하는 단계를 포함하는 것을 특징으로 한다.

하나의 예로써, 상기 입력 문장 처리 단계는 입력된 음악파일에 대한 정보를 형태소와 구문과 의미해석을 기반으로 음운 기호열로 변환하는 것을 특징으로 한다.

하나의 예로써, 상기 억양 제어 단계는 합성음에 자연성을 주는 운율요소로서 기본 주파수 모델로 확립되어있는 후지사키 모델을 이용하여 기본 주파수 피치 패턴을 생성하는 것을 특징으로 한다.

하나의 예로써, 상기 저장된 음원 데이터를 이용하여 음성 정보를 생성하는 단계는 사전에 음악 파일 정보를 미리 소팅(sorting)하여 저장하고 이를 데이터베 이스화하여 음성 생성시 적용하는 것을 특징으로 한다.

상기한 목적을 달성하기 위한 본 발명에 따른 음성 정보를 가지는 음악 파일 생성 장치는, 음악 파일 정보와 음성 정보 생성을 위한 데이터를 저장하는 메모리부; 상기 메모리부에 저장된 음악 파일 정보를 발음 기호열로 변환하는 언어처리부; 상기 언어처리부를 통해서 기호열로 변환되어 생성된 합성음에 운율정보를 반영하는 운율제어부; 상기 생성된 합성음의 음운을 생성하거나 상기 메모리부에 사전에 음악 파일 정보에 따른 음성정보를 이용하여 음성을 생성하는 음성 생성부; 및 상기 생성된 음악파일 정보에 따른 음성 정보와 상기 메모리부에 저장된 음악 파일을 합성하고 상기 음성 정보 생성의 전반적인 제어를 하는 제어부를 포함하는 것을 특징으로 한다.

하나의 예로써, 상기 언어 처리부는 입력된 음악파일에 대한 정보를 형태소와 구문과 의미해석을 기반으로 음운 기호열로 변환하는 것을 특징으로 한다.

하나의 예로서, 상기 운율제어부는 합성음에 자연성을 주는 운율요소로서 기본 주파수 모델로 확립되어있는 후지사키 모델을 이용하여 기본 주파수 피치 패턴을 생성하는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시 예에 따른 음성 정보를 가지는 음악 파일 생성 방법 및 장치를 설명한다.

도 1은 본 발명의 바람직한 실시 예에 따른 음성 정보 생성 장치의 구성을 나타낸 블록도 이다.

도 1을 참조하면, 음악 파일에 대한 음성 정보를 생성하여 음악 파일과 합성 하기 위한 단말 장치(100)는 음악 파일에 대한 음성 정보 생성 명령 및 음원을 합성하기 위한 동작 명령을 입력받는 키 입력부(102)와 음악 파일, 음악 파일에 대한 음원 정보가 저장되어 있고 상기 음원 정보에 대한 음원 데이터가 음원 정보별로 분류되어 저장되는 메모리부(104)와 상기 음악파일에 대한 정보를 분석하는 언어 처리부(106)와 상기 음악파일에 대한 정보가 음성 정보를 생성하는 운율 제어부(108)와 상기 생성된 합성음의 음운을 생성하거나 상기 메모리부(104)에 사전에 음악 파일 정보에 따른 음성정보를 이용하여 음성을 생성하는 음성 생성부(110)와 음악 파일에 대한 음원 정보를 표시하는 표시부(112)와 상기 음악 파일 재생 및 음악 파일 재생 시 음성 정보를 출력하기 위한 오디오 처리부(114)와 상기 생성된 음악파일 정보에 따른 음성 정보와 상기 메모리부(104)에 저장된 음악 파일을 합성하고 상기 음성 정보 생성의 전반적인 제어를 하는 제어부(116)를 포함한다.

상기 단말 장치(100)는 작은 합성 단위음성과 언어 처리를 이용하여 임의의 문장에 대한 음성을 생성한다.

언어 처리를 이용하여 입력된 문장을 적당한 합성 단위의 조합으로 대응시키고, 문장으로부터 억양과 지속시간을 추출하여 합성음의 운율을 결정한다.

언어의 기본 단위인 음소, 음절 등의 조합에 의해 음성을 합성해 내므로 합성 대상어휘에 제한이 없으며 주고 TTS(Text-to-Speech)장치와 CTS(Context-to-Speech)장치 등에 적용할 수 있을 것이다.

상기 음악 파일에 대한 음원 정보는 적게는 1개에서 많게는 5개 이내의 형태소로 이루어져 있다.

이에 대해 규칙성을 가지는 음원 길이제어, 억양제어를 이용하여 단위 음원 정보에 대한 데이터 패턴을 가진 음원정보만의 자연스러운 합성을 생성하도록 구성된다.

도 2는 본 발명의 바람직한 실시 예에 따른 음악 파일에 대한 정보를 음성 정보로 생성하는 과정을 나타낸 흐름도이고, 도 3은 본 발명의 바람직한 실시 예에 따른 후지사키 모델의 피치 설정을 나타낸 도면이다.

도 2를 참조하면, 음악 파일에 대한 음성 정보를 생성하기 위하여 해당 음악 파일에 대한 음원 정보를 입력 받는다(S200).

상기 음악 파일에 대한 음원 정보의 입력 문장을 처리할 수 있도록 입력된 정보를 사전 정보(제목, 아티스트 ,장르)에 의한 형태소 및 구문, 의미해석을 기반으로 하여, 음운 기호 열로 변환한다.

변 이음 처리와 장단음 처리 및 약어, 숫자 처리 등 문법에 따른 구조와 강세를 부여한다(S202).

발음 규칙을 처리할 수 있도록 음운과 음운이 만나 음운 변동이 일어날 때 규칙적 불규칙적 인 음운변동에 따른 발음사전에 따른 소리를 기호 열로 표기해준다(S204).

상기 기호 열로 표기된 음운들의 길이 제어를 위해 자연스러운 리듬과 템포의 부여를 위해 연속음성에 있어서 음운의 지속시간을 조사하여 음성 합성에 적용한다.

음악 파일에 대한 음원 정보는 몇 개의 형태소로 이루어져 있으므로 문장 개 수에 따른 모델을 적용하여 모델링 하도록 한다(S206).

상기 음원에 억양을 제어하기 위하여 합성음에 자연성을 주는 운율요소로서 기본주파수 모델로 거의 확립되어있는 후지사키 모델을 이용하도록 한다.

이 모델은 우리나라 언어의 중문이상에서는 Reset현상과 같은 현상도 나타나지만 음원 정보는 단문을 포함하므로 후지사키 모델을 이용한다(S208).

도 3을 참조하여 후지사키 모델에 대해 간략히 설명하면,

일본어에 대한 후지사키 모델은 기존 호흡 단락 그룹으로 만들어지고 이 호흡단락 그룹 사이에 휴지 길이가 삽입되는 피치 패턴의 생성 모델을 가지고 있다.

이 모델은 악센트가 피치 악센트 모델에 잘 적용되는 것으로 알려져 있다.

음원의 음성정보는 피치 악센트에 적합하므로 이 모델을 이용하여 기본 주파수 피치 패턴을 생성한다.

도 3의 수식은, 악센트에 따라서 기본주파수를 추출하는 식을 나타낸 것이다.

음운 생성을 위하여 성도의 변동을 나타내기 위한 규칙을 줄이기 위해 음원 정보에 따른 음성을 미리 저장하며, 저장된 단편들을 접속하여 음성을 생성한다.

이를 위해, 음반 제목 및 가수들을 미리 분류하여 저장하여두고 음원정보에 대해 특화된 음원 DB를 생성하여둔다(S210).

생성음성의 음질은 음악 음원의 음질과 동일하게 설정하도록 한다. 이렇게 생성될 음성합성의 모델링 에는 LPC(Linear Predictive Coding)라는 방식을 사용하도록 한다.

LPC는 현재의 신호로 미래의 신호를 예측할 수 있다는 원리를 이용한다.

음원 음성 신호는 변화가 많지만 작은 단위로 거의 주기적인 모양을 띄고 있고 과거의 신호와 비교할 때 많은 변화가 없기 때문에 이를 바탕으로 음원 합성 구조를 모델링 한다(S212).

도 4는 본 발명의 바람직한 실시 예에 따른 음악 파일에 대한 정보를 음성 정로 생성하여 음악 파일에 포함되어 생성하는 과정을 나타낸 흐름도이다.

도 4를 참조하면, 음악 파일에 대한 음성 정보를 생성하기 위하여 해당 음악 파일에 대한 음원 정보를 입력 받는다(S400).

상기 음원 정보는 텍스트로 사용자가 직접 입력한 정보이거나 음악 파일에 포함되어 있는 ID3tag의 정보인데, 상기와 같은 음악 파일에 대한 정보를 분석한다(S402).

상기 분석된 음악 파일에 대한 정보를 이용하여 도 2와 도3에 설명된 과정을 통해 음성 정보를 생성한다(S404).

상기 생성된 음성 정보와 음악 파일을 합성한다(S406).

상기 음악 파일의 태그 정보에서 비어있는 비트를 이용하여 해당 부분에 음악 파일에 대한 음성 정보를 삽입하는 방식을 이용할 수 있으며, 상기 음악 파일에 전주 이전에 상기 파일을 삽입하여 음성 정보가 포함된 음악 파일을 생성한다(S408).

상기 음성 정보가 포함된 음악 파일을 재생할 때, 플레이어를 통해 음성 정보를 확인하는 방법에 대한 옵션을 설정할 수 있도록 구성한다.

음악 파일 재생시 앞 부분에 정보가 출력될 수 있도록 하거나, 원하는 정보만 출력되도록 하거나, 사용자가 원할 때만 음성 정보가 출력되도록 구성할 수 있을 것이다.

상기와 같이, 음악 파일의 음원 정보를 분석하여 TTS 기능을 통해 음성 정보로 생성하여 상기 음악 파일에 포함되도록 함으로써, 시각적으로 제공되던 음악 파일의 음원 정보를 청각적으로 쉽게 확인할 수 있게 되는 효과가 있다.

이제까지 본 발명에 대하여 그 바람직한 실시 예를 중심으로 살펴보았으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적 기술 범위 내에서 상기 본 발명의 상세한 설명과 다른 형태의 실시 예들을 구현할 수 있을 것이다. 여기서 본 발명의 본질적 기술범위는 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

본 발명에 따르면 음악 파일의 음원 정보를 분석하여 TTS 기능을 통해 음성 정보로 생성하여 상기 음악 파일에 포함되도록 함으로써, 시각적으로 제공되던 음악 파일의 음원 정보를 청각적으로 쉽게 확인할 수 있게 되는 효과가 있다.

Claims

음악파일에 대한 정보가 입력되는 단계;

상기 음악파일에 대한 정보를 분석하는 단계;

상기 음악파일에 대한 정보가 음성 정보로 생성되는 단계;

상기 음성 정보와 상기 음악파일을 합성하는 단계; 및

상기 음성 정보가 포함된 음악 파일이 생성되는 단계를 포함하는 것을 특징으로 하는 음성 정보를 가지는 음악 파일 생성 방법.
제 1항에 있어서,

상기 음악파일에 대한 정보가 음성 정보로 생성되는 단계는,

상기 음악 파일 정보를 음운 기호열로 변환하는 입력 문장 처리 단계;

상기 음운의 결합으로 인한 음운 변동 발생시의 규칙적이거나 불규칙적인 음운변동이 적용된 발음 사전에 따른 소리를 기호열로 표시하는 발음규칙 처리 단계;

자연스러운 리듬과 템포의 부여를 위해 연속음성에 대한 음운의 지속 시간을 조사하는 길이 제어 단계;

합성음에 자연성을 주기 위한 억양 제어 단계;

저장된 음원 데이터를 이용하여 음성 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 음성 정보를 가지는 음악 파일 생성 방법.
제 2항에 있어서,

상기 입력 문장 처리 단계는 입력된 음악파일에 대한 정보를 형태소와 구문과 의미해석을 기반으로 음운 기호열로 변환하는 것을 특징으로 하는 음성 정보를 가지는 음악 파일 생성 방법.
제 2항에 있어서,

상기 억양 제어 단계는 합성음에 자연성을 주는 운율요소로서 기본 주파수 모델로 확립되어있는 후지사키 모델을 이용하여 기본 주파수 피치 패턴을 생성하는 것을 특징으로 하는 음성 정보를 가지는 음악 파일 생성 방법.
제 2항에 있어서,

상기 저장된 음원 데이터를 이용하여 음성 정보를 생성하는 단계는 사전에 음악 파일 정보를 미리 소팅(sorting)하여 저장하고 이를 데이터베이스화하여 음성 생성시 적용하는 것을 특징으로 하는 음성 정보를 가지는 음악 파일 생성 방법.
음악 파일 정보와 음성 정보 생성을 위한 데이터를 저장하는 메모리부;

상기 메모리부에 저장된 음악 파일 정보를 발음 기호열로 변환하는 언어처리부;

상기 언어처리부를 통해서 기호열로 변환되어 생성된 합성음에 운율정보를 반영하는 운율제어부;

상기 생성된 합성음의 음운을 생성하거나 상기 메모리부에 사전에 음악 파일 정보에 따른 음성정보를 이용하여 음성을 생성하는 음성 생성부; 및

상기 생성된 음악파일 정보에 따른 음성 정보와 상기 메모리부에 저장된 음악 파일을 합성하고 상기 음성 정보 생성의 전반적인 제어를 하는 제어부를 포함하는 것을 특징으로 하는 음성 정보를 가지는 음악 파일 생성 장치.
제 6항에 있어서,

상기 언어 처리부는 입력된 음악파일에 대한 정보를 형태소와 구문과 의미해석을 기반으로 음운 기호열로 변환하는 것을 특징으로 하는 음성 정보를 가지는 음악 파일 생성 장치.
제 6항에 있어서,

상기 운율제어부는 합성음에 자연성을 주는 운율요소로서 기본 주파수 모델로 확립되어있는 후지사키 모델을 이용하여 기본 주파수 피치 패턴을 생성하는 것을 특징으로 하는 음성 정보를 가지는 음악 파일 생성 장치.