KR100330779B1

KR100330779B1 - 디지털 음성 속도가변 재생방법

Info

Publication number: KR100330779B1
Application number: KR1019990007920A
Authority: KR
Inventors: 박재현
Original assignee: 홍순직; (주) 오리엔트에이브이
Priority date: 1999-03-10
Filing date: 1999-03-10
Publication date: 2002-03-29
Also published as: KR20000059961A

Abstract

본 발명은 디지털 음성 속도가변 재생방법에 관한 것으로, 시간축적 변조방식(Time Scale Modification) 및 디지털 신호처리(Digital Signal Processing) 기술을 이용하여 음조 주파수의 변화없이 말의 속도를 녹음 및 재생하고, 재생된 음성을 일정 시간동안 샘플링한 후에 부호/복호화 변환기(Coding-Decoding Convertor)를 이용하여 데이터 메모리부에 압축 및 저장한 다음에 기능키의 처리조작에 따라 압축된 음성을 풀어서 부호/복호화 변환기내의 디지털/아날로그 변환기를 통해 스피커로 출력할 수 있도록 하여 재생되는 음성의 발음 및 억양의 변화없이 소정의 재생속도를 사용자가 임의로 조정하여 음질의 열화없이 무한 반복적인 음성을 출력할 수 있도록 한 것이다.

Description

디지털 음성 속도가변 재생방법{PLAY METHOD FOR VARIABLE SPEED OF DIGITAL VOCAL}

본 발명은 디지털 음성의 속도를 가변시켜 재생하는 방법에 관한 것으로, 더욱 상세하게는 시간축적 변조방식(Time Scale Modification) 및 디지털 신호처리(Digital Signal Processing) 기술을 이용하여 음조 주파수의 변화없이 말의 속도를 녹음 및 재생하고, 재생된 음성을 일정 시간동안 샘플링한 후에 부호/복호화 변환기(Coding-Decoding Convertor)를 이용하여 데이터 메모리부에 압축 및 저장한 다음에 기능키의 처리조작에 따라 압축된 음성을 풀어서 부호/복호화 변환기내의 디지털/아날로그 변환기를 통해 가청신호로 출력할 수 있도록 한 디지털 음성 속도가변 재생방법에 관한 것이다.

일반적인 음성 재생장치, 예로서, 카세트 테이프 레코더는 마이크로폰으로 입력되는 음성이나 음향신호를 전기적인 신호로 변환시켜 기록헤드를 통해 테이프에 기록시키거나 또는 테이프에 기록된 신호를 재생헤드를 통해 재생하여 스피커 등으로 출력시키는 것이다.

이와 같은 음성 재생장치에는 음성이나 음향신호를 기록하거나 재생하는 장치가 내장되어 있고, 음성이나 음향신호를 저장할 수 있는 기록매체(예로, 테이프)가 있어야 하며, 음성 재생장치를 구동시키는 기능키나 모터 및 모터구동부가 장착되고, 음성이나 음향신호를 입출력하는 마이크로폰 및 스피커 또는 이어폰단자 등이 구성되며, 이러한 구동을 제어하는 제어부가 포함되어 있다.

이러한 종래의 음성 재생장치를 포함한 대부분의 음성이나 음향신호를 기록하고 재생하는 장치는 사용자의 요구에 의해 기록매체에 기록된 신호를 재생할 때에 항상 정해진 재생속도에 의하여 음성이나 음향신호를 재생하였다.

즉 예를 들어, 어학학습을 위한 테이프의 경우에 사용자의 요구에 의하여 어학학습에 필요한 반복청취를 하기 위해서는 되감기버튼과 재생버튼을 수동으로 일일이 조작해야 하는 번거러움과 재생된 음성을 따라 발음연습을 하고자 할 때에는 테이프의 녹음당시에 일정시간을 두지 않고 계속적으로 이어지는 문장을 발음하거나 일정시간을 두더라도 사용자의 이해정도나 듣기정도에 따라 발음연습을 정확하게 할 수가 없었다. 따라서, 사용자는 수동으로 정지버튼과 재생버튼을 조작하여야 하는 불편함이 있었다.

이와 같은 불편한 문제를 개선하기 위하여, 사용자가 테이프를 재생한 후에 원하는 기능을 구동시키기 위하여 1:1발음이나 1:1메모리를 위한 버튼을 작동시키면, 사용자의 선택에 의하여 재생중에 한 문장 또는 선택된 문장의 수만큼 재생이 종료되어 자동으로 테이프가 정지되고, 사용자가 문장의 반복회수를 임의로 지정하여 반복적으로 발음하게 되며, 그 음이 마이크로폰을 통하여 입력되어 메모리에 저장되고, 테이프의 재생음과 사용자의 반복적인 발음이 메모리에 동시 저장 및 반복되어 비교되는 음을 청취할 수 있도록 설계한 것이다.

그러나, 이와 같은 종래의 음성 재생장치와 같이 단순히 데크를 제어하는 콘트롤러와 테이프의 신호를 일정량만큼 저장하는 메모리부에 의하여 재생된 소정량의 문장에 대해서만 발음연습을 할 수 있어 소정량 이상의 문장에 대해서는 무한 반복학습이 불가능하므로, 이러한 문제를 위하여 데크부를 통해서 테이프에 수록된 음성을 재생하고 학습모드상에서 데크부의 재생동작을 일시적으로 중지시킨 다음에 이 재생된 음성을 메모리부에 저장하여 연속적으로 반복학습을 할 수 있도록 된 다양한 기능의 어학학습기가 있으나, 이 또한 사용자의 학습능력에 적합한 발음속도를 자유롭게 조정하고 정해진 속도에 의해 무한 반복적으로 학습할 수 있는 기능을 갖추고 있지 못한 실정이었다.

본 발명은 이러한 실정을 감안하여 안출한 것으로, 재생되는 음성의 발음 및 억양이 변화 및 음질의 열화가 없으면서 재생속도를 사용자가 임의의 시간간격으로 조정할 수 있도록 하는 디지털 음성으로 속도를 가변하여 재생할 수 있도록 하여 무한 반복적인 음성출력을 할 수 있는 디지털 음성 속도가변 재생방법을 제공하기 위한 것이 목적이다.

또한, 본 발명의 목적은 시간축적 변조방식(TSM)을 소프트웨어로 디지털 신호처리부에 적용하여 음성을 재생하는 모드에서 재생된 음성을 데이터 메모리부에 일시적으로 저장하였가 음성을 재생하는 모드가 해제될 때까지 연속적으로 억양 및 발음이 변하지 않으면서 각종의 음성의 열화없이 음성출력이 가능하도록 하였고, 사용자가 원하는 레벨로 음성속도를 조정하여 용이하게 반복출력을 할 수 있도록 하는 디지털 음성 속도가변 재생방법을 제공함에 있다.

도 1은 본 발명에 따른 디지털 음성 속도가변 재생장치의 블록도,

도 2a 내지 도 2d는 본 발명에 따른 디지털 음성의 속도가변을 위한 시간축적 변조방식을 나타낸 파형도,

도 3은 본 발명에 따른 디지털 음성속도 가변 재생방법을 나타낸 흐름도.

♣ 도면의 주요 부분에 대한 부호의 설명 ♣

10: 마이크로폰12: 데크부

14: 아날로그/디지털 변환부16: 샘플링부

18: 디지털 신호처리부20: 메모리부

22: 부호/복호화 변환부24: 디지털/아날로그 변환부

26: 스피커

본 발명은 상기의 목적을 달성하기 위하여, 음성신호가 입력되면 아날로그신호를 디지털신호로 변환한 후에 각각의 문장을 검출하기 위해서 끝점 검출(End Point Detection) 알고리즘을 취하고, 알고리즘 수행은 음성신호의 에너지와 제로 크로싱비(Zero Crossing Rate)를 이용하여 각각의 문장을 찾아내며, 다음으로 이 문장들의 속도변환을 위하여 싱크로나이즈드 오버랩 앤드 애드(Synchronized Overlap and Add) 알고리즘을 취하게 되고, 이 알고리즘은 음성신호의 피치(Pitch)를 이용해서 원하는 속도로 문장을 합성해 주며, 속도변환시에 음성신호의 사이에 평균화된 보정신호를 추가하여 음질의 열화가 없이 표준속도시와 동일한 음질을 구현하는 디지털 음성 속도가변 재생방법을 제공한다.

또한, 본 발명은 상기 알고리즘으로 마이크로폰으로부터 또는 녹음된 음성이 입력되는 단계와, 성문펄스의 규칙적인 직렬주기인 피치간격을 배열하는 단계와, 배열된 소정의 피치간격을 버리는 단계와, 남은 피치간격을 연결하는 단계와, 피치펄스들의 규칙적인 배열을 중단되는 단계와, 연쇄적인 연결펄스가 불규칙적으로 변하는 커트 및 연결음성을 갖는 다른 특성의 공통주기를 발생하는 단계와, 피치주기 정보 및 말의 비율에 기준으로 규칙적인 피치간격의 버림을 반복하는 단계와, 가능한 피치주기가 반복되고 버려지도록 길이가 같은 말의 확장을 길게하는 단계와, 음성분절의 끝부분의 겹침 및 부드럽게 혼성하는 단계와, 음성을 가속 및 감속시키는 단계를 수행하는 것이 특징이다.

또한, 본 발명은 입력되는 음성신호를 전기적인 신호로 변환시키는 마이크로폰부와, 녹음된 음성신호를 출력시키는 데크부와, 상기 마이크로폰이나 데크부로부터 입력된 아날로그 신호를 디지털 신호로 변환시키는 아날로그/디지털 변환부와, 변환된 디지털 신호를 소정의 주기로 샘플링시키는 샘플링부와, 샘플링된 신호를 처리하는 디지털 신호처리부와, 디지털 신호처리부로 입력된 데이터를 저장하거나 저장된 데이터를 출력시키는 메모리부와, 디지털 신호처리부로부터 입력된 부호화된 신호를 복호화시키는 부호/복호화 변환부와, 복호화된 디지털 신호를 아날로그 신호로 변환시키는 디지털/아날로그 변환부와, 변환된 아날로그 신호를 소정레벨의 음성신호로 출력시키는 스피커가 포함된 디지털 음성 속도가변 재생장치를 제공함으로써 달성될 수 있다.

이하 첨부된 도면에 참조하여 본 발명을 상세하게 설명하면 다음과 같다.

도 1은 본 발명에 따른 디지털 음성 속도가변 재생장치의 블록도이고, 도 1에 도시되지 않은 일반적인 음성 재생장치의 구성은 본 발명에서는 생략한다.

마이크로폰(10)은 입력되는 음성신호를 소정레벨의 전기적인 신호로 변환시키는 것으로, 마이크로폰(10)은 외부의 음성신호를 입력시키는 것이다.

데크부(12)는 녹음된 테이프 등과 같은 저장수단으로부터 음성신호를 출력시키는 것으로, 카세트 테이프 레코더나 컴팩트 디스크 플레이어 또는 AM/FM라디오 일 수 있다.

아날로그/디지털 변환부(14)는 상기 마이크로폰(10)이나 데크부(12)로부터 입력된 아날로그 신호를 디지털 신호로 변환시키는 것이고, 샘플링부(16)는 상기 아날로그/디지털 변환부(14)에서 변환된 디지털 신호를 소정의 주기로 샘플링시키는 것이다. 상기 샘플링부(16)는 아날로그/디지털 변환부(14)에 포함될 수 있다.

디지털 신호처리부(18)는 샘플링된 신호를 처리하는 것으로, 하나의 집적회로 또는 전자회로가 포함된다. 디지털 신호처리부(18)는 외부로부터 입력된 키신호 또는 조절신호에 의해 출력되는 음성신호의 출력속도를 가속 또는 감속상태로 가변시킨다.

메모리부(20)는 상기 디지털 신호처리부(18)로 입력된 데이터를 저장하거나 저장된 데이터를 출력시키는 것으로, 메모리부(20)는 램(RAM)이나 이이피롬(EEPROM) 등이 사용된다.

부호/복호화 변환부(22)는 상기 디지털 신호처리부(18)로부터 입력된 부호화된 신호를 복호화시키는 것이고, 디지털/아날로그 변환부(24)는 복호화된 디지털 신호를 아날로그 신호로 변환시키는 것이며, 상기 부호/복호화 변환부(22)는 디지털/아날로그 변환부(24)에 포함될 수 있다.

스피커(26)는 상기 변환된 아날로그 신호를 소정레벨의 음성신호로 출력시키는 것이다.

이와 같이 구성된 본 발명은 음성신호가 입력되면 아날로그신호를 디지털신호로 변환한 후에 각각의 문장을 검출하기 위해서 끝점 검출(End Point Detection) 알고리즘을 취하고, 알고리즘 수행은 음성신호의 에너지와 제로 크로싱비(Zero Crossing Rate)를 이용하여 각각의 문장을 찾아내며, 다음으로 이 문장들의 속도변환을 위하여 싱크로나이즈드 오버랩 앤드 애드(Synchronized Overlap and Add) 알고리즘을 취하게 되고, 이 알고리즘은 음성신호의 피치(Pitch)를 이용해서 원하는속도로 문장을 합성해 주며, 속도변환시에 음성신호의 사이에 평균화된 보정신호를 추가하여 음질의 열화가 없이 표준속도시와 동일한 음질을 구현한다.

상기 도 2의 시간축적 변조방식을 설명하기 위한 파형도와 도 3의 흐름도를 참조하여 알고리즘을 설명하면 다음과 같다.

시간축적 변조방식은 말의 속도를 느리게 하거나 빠르게 하기 위하여 음성에 시간축적 변화를 포함하도록 한다. 그 특징은 음조주파수의 변화없이 말의 속도를 녹음재생기로 변화시킨다. 예를 들면, 스펙트랄 형태(Spectral Shape) 및 피치 컨트롤(Pitch Control)은 보존할 필요가 없다.

이러한 방식은 커트(Cut) 및 연결방법의 변화량이다. 외부 또는 내부의 장치로부터 음성이 입력되고, 이렇게 입력된 통상적인 음성의 커트 및 연결방법에 대한 문제는 유성음이 각각의 성문(聲門) 펄스들에 따른 직렬주기(피치간격)들을 갖는 것으로 귀착될 수 있다(도 2a 참조)(단계 S101 및 단계 S102).

사실상 이들 주기들의 규칙적인 배열은 '피치'라 명명된 하나의 현상으로 주어지고, 이들 주기들의 길이는 '피치간격'으로 불리어진다. 말의 커트 및 연결과정에서 도 2a의 A에서 B까지의 간격이 버려지고, 남아 있는 부분들이 도 2b에서와 같이 서로 연결될 때에 피치펄스들의 규칙적인 배열들이 중단(Interrupt)된다. 연쇄적인 연결펄스들은 도 2b와 같이 비록 연결된 에지(Edge)들이 서로 합쳐지게 되는 현상이 발생하더라도 서로 매우 근접되거나 서로 매우 떨어지게 될 것이다(단계 S103 내지 단계 S105).

더욱이 버려진 간격이 크면, 통상적으로 약 30ms 정도의 연결이 다른 특성의공통주기를 발생시킨다. 이러한 상황이 도 2b에서 설명된다. 이것은 연결 자체가 아닌 규칙적이고 주기적인 중단으로 되는 불규칙적으로 변하는 커트 및 연결음성이 만들어진다(단계 S106).

상기 문제점들을 해결하고 음성을 자연적으로 만들기 위하여, 말의 피치간격의 다수에서 커트 및 연결을 한다. 이는 간단하며 효과적인 피치평가를 위한 알고리즘이 사용된다.

판단된 또는 평가된 피치주기에 대한 정보 및 말의 비율을 근간으로 하여 규칙적인 간격(C, D)이 버려진다(도 2c 참조). 실제로, 다수의 음성들의 피치주기들이 버려지거나 반복될 것이다(단계 S107).

더욱이 본 발명에서 실제로 말의 주기들의 시점에서 연결 및 되풀이를 행하지 않고, 가능한 피치주기가 반복되고 버려지도록 길이가 같은 말의 확장을 길게한다(단계 S108).

따라서, 본 발명에서 중요한 핵심은 시간축적 변조방식에 따라 가속의 경우에서 아티패드를 줄이기 위해서 교차음량 기술이 사용되고, 그것을 위하여 음성의 분절의 끝부분들이 겹쳐지고, 또한 그것들은 부드럽게 혼성하는 포함(C+D)하도록 하는 것이다(도 2d 참조)(단계 S109).

이와 같은 시간축적 변조방식에 따라 학습모드 상태에서는 디지털 신호처리장치가 중요한 역할을 하게 되는데, 이러한 방식을 정해진 소프트웨어로 처리하며, 재생된 음성들은 일정한 피치주기의 펄스를 갖기 때문에 도 2a 내지 도 2d에 도시된 바와 같이 음성의 가속 및 감속이 가능하게 되는 것이다(단계 S110).

따라서, 카세트 테이프 레코더의 구성인 기능키 제어부, 디스플레이 제어부, 모터 제어부 등의 컨트롤 동작에 따라 녹음부 및 재생부의 선별동작이 결정되며, 일단 재생부 및 녹음부 중에서 어느 하나의 제어동작이 결정되면 재생된 음성이 부호/복호화 변환기를 통하여 디지털신호로 변환된 후에 디지털 신호처리장치를 경유하여 데이터 메모리부에 저장되게 된다. 이때, 학습모드 상태에서는 반드시 부팅 메모리부에 의해서 디지털 신호처리부 및 데이터 메모리부가 초기화될 것이며, 다른 제어부는 리세트에 의해 초기화되어야 학습모드가 올바르게 수행될 수 있다.

이와 같이 본 발명에서 추구하는 디지털 음성 속도가변 재생방법을 고려하여 충분하게 변화될 수 있음은 해당분야의 지식을 가진자라면 용이하게 이해할 수 있을 것이고, 또, 본 발명의 범위내에서 다른 실시예가 고려될 수 있으며, 본 발명의 범위는 한정된 것은 아니다.

이상에서 설명한 바와 같이, 본 발명은 디지털 음성의 속도를 가변하여 재생시킬 수 있는 음성 재생장치 등에 입력된 음성신호를 디지털 및 샘플링시킨 후에 메모리부에 저장한 후에 외부로부터 입력된 설정조건에 따라 재생되는 음성신호의 속도를 가변시킬 수 있도록 한 것으로, 재생되는 음성의 발음 및 억양의 변화없이 소정의 재생속도로 사용자가 임의로 조정하여 무한 반복적인 음성재생 및 음질의 열화없이 음성신호를 재생하는 모드의 알고리즘을 수행할 수 있는 효과가 있다.

Claims

입력되는 음성신호를 전기적인 신호로 변환시키는 마이크로폰과, 녹음된 음성신호를 출력시키는 데크부와, 상기 마이크로폰이나 데크부로부터 입력된 아날로그 신호를 디지털 신호로 변환시키는 아날로그/디지털 변환부와, 변환된 디지털 신호를 소정의 주기로 샘플링시키는 샘플링부와, 샘플링된 신호를 처리하는 디지털 신호처리부와, 디지털 신호처리부로 입력된 데이터를 저장하거나 저장된 데이터를 출력시키는 메모리부와, 디지털 신호처리부로부터 입력된 부호화된 신호를 복호화시키는 부호/복호화 변환부와, 복호화된 디지털 신호를 아날로그 신호로 변환시키는 디지털/아날로그 변환부와, 변환된 아날로그 신호를 소정레벨의 음성신호로 출력시키는 스피커로 구성되어 있는 디지털 음성 속도가변 재생장치에 있어서,

음성신호가 입력되면 아날로그신호를 디지털신호로 변환한 후에 각각의 문장을 검출하기 위해서 끝점 검출(End Point Detection) 알고리즘을 취하고, 알고리즘 수행은 음성신호의 에너지와 제로 크로싱비(Zero Crossing Rate)를 이용하여 각각의 문장을 찾아내며, 다음으로 이 문장들의 속도변환을 위하여 싱크로나이즈드 오버랩 앤드 애드(Synchronized Overlap and Add) 알고리즘을 취하게 되고, 이 알고리즘은 음성신호의 피치(Pitch)를 이용해서 원하는 속도로 문장을 합성해 주며, 속도변환시에 음성신호의 사이에 평균화된 보정신호를 추가하여 음질의 열화가 없이 표준속도시와 동일한 음질을 구현하는 디지털 음성 속도가변 재생방법.
제 1항에 있어서,

상기 알고리즘은 마이크로폰으로부터 또는 녹음된 음성이 입력되는 단계와,

성문펄스의 규칙적인 직렬주기인 피치간격을 배열하는 단계와,

배열된 소정의 피치간격을 버리는 단계와,

남은 피치간격을 연결하는 단계와,

피치펄스들의 규칙적인 배열을 중단되는 단계와,

연쇄적인 연결펄스가 불규칙적으로 변하는 커트 및 연결음성을 갖는 다른 특성의 공통주기를 발생하는 단계와,

피치주기 정보 및 말의 비율에 기준으로 규칙적인 피치간격의 버림을 반복하는 단계와,

가능한 피치주기가 반복되고 버려지도록 길이가 같은 말의 확장을 길게하는 단계와,

음성분절의 끝부분의 겹침 및 부드럽게 혼성하는 단계와,

음성을 가속 및 감속시키는 단계를 수행하는 것을 특징으로 하는 디지털 음성 속도가변 재생방법.
삭제