KR20040058855A

KR20040058855A - 음성 변조 장치 및 방법

Info

Publication number: KR20040058855A
Application number: KR1020020085368A
Authority: KR
Inventors: 김기수
Original assignee: 엘지전자 주식회사
Priority date: 2002-12-27
Filing date: 2002-12-27
Publication date: 2004-07-05
Also published as: RU2333546C2; RU2003137216A; US20040138879A1; US7587312B2

Abstract

본 발명은 유무선 전화기와 같은 음성 통신 장치에서, 음성의 피치를 변조하여 음성을 변조하는 장치 및 방법에 관한 것이다.

본 발명에 따른 음성 변조 장치는 입력되는 음성 신호의 엔벨로프(envelope) 특성을 반영하는 성도 필터 계수를 얻는 LPC 분석기와; 상기 음성 신호의 피치를 검출하는 피치 검출기와; 상기 피치 검출기에서 검출된 피치 주기를 변화시켜 음성 신호를 변조하는 피치 변조기와; 상기 LPC 분석기와 피치 변조기에서 얻어진 신호를 유, 무선으로 전송하기 위하여 부호화하여 비트 스트림으로 출력하는 부호화기;를 포함하여 구성된다.

본 발명은 상기와 같은 구성을 가지며, 음성 통신 장치에서 음성 메시지 또는 음성 메일을 전달하고자 할 때 사용자의 음성의 피치를 변화시킴으로써 음성을 통한 사생활 보호가 가능하고 다양한 음성으로 변화시킬 수 있다.

Description

음성 변조 장치 및 방법{voice modification device and the method}

일반적으로, 전화기는 유선 또는 무선 등으로 상대방과 접속하여 이루어지는 음성 통신에 사용되는 기기를 일컬으며 현대 사회의 통신 수단 중에서 가장 근간을이루고 있다.

최근에는 이동 통신 망의 발전으로 유선 전화뿐 아니라 무선 전화 즉, 이동 통신 단말기의 사용이 급속이 증가하고 있다.

상기 이동 통신 단말기는 이제 종래 단순히 음성만을 전달하던 역할에서 데이터 송수신은 물론 문자 메시지, 일기예보, 증권거래, 은행입출금, 뉴스속보, 전자우편 원격검침까지도 가능하다.

상기와 같이 급속도로 발전하는 이동 통신 단말기는 기존의 문자 메시지 외에 멀티미디어 메시지(Multimedia Message Service : MMS) 전송도 가능하게 되었다.

상기 멀티미디어 메시지 서비스에는 스틸 이미지(still image, 정지 영상), 음성 메시지(voice message), 음성 메일(voice mail), MPEG4를 이용한 동영상 등이 포함되어 있다.

따라서, 상기 멀티미디어 메시지 서비스를 지원하는 이동 통신 단말기에 필요한 응용 기술들이 속속 개발되고 있으며 정지 영상같은 경우에는 흑백, 반전, 세피아(sephia) 등의 여러 효과를 추가하여 보낼 수 있다.

그러나, 상기 음성 메시지 같은 경우에는 아직까지 음성 사서함 외에는 많은 응용 프로그램들이 개발되고 있지 않으며 또한 이러한 특수 효과가 거의 사용되지 않고 있다.

상기와 같이 음성 메시지 또는 음성 메일로 상대방에게 음성을 전달하고자 할 때에, 음성을 전송에 적합한 디지털 신호로 변환하기 위해서 음성을 코딩하는기법인 보코더(vocoder)가 사용되고 있다.

상기 전화기에 사용되는 일반적인 음성 부호화 방법은 AMR, EVRC, CELP 등이 있으며 대부분의 경우에 음성의 발성 모델을 음원 부호화 방식(source codec), 파형 부호화 방식(waveform codec), 상기 음원 부호화 방식과 파형 부호화 방식을 혼합한 혼성 부호화 방식(hybrid codec)이 있다.

상기 음원 부호화 방식은 음성 파형이 아닌 음성 모델을 분석하여 분석된 데이터를 변조하는 방식을 말한다.

상기 음원 부호화 방식의 종류에는 LPC 음원 부호화기, 채널 음원 부호화기, 포맷 음원 부호화기, 위상 음원 부호화기 등이 있다.

상기 음원 부호화 방식은 음성 신호의 생성 모델에 근거하여 음성 신호로부터 특성 파라미터를 추출하고 복호화기에서 이 특성 파라미터를 이용하여 음성을 재생하는 방식이다.

상기 음원 부호화기는 음성 신호를 인간의 음성 발생 과정의 모델링에 의해 나타내는 방법이라 할 수 있으며, 상기 음성 신호의 파형을 정밀하게 재생하는 것이 아니라 사람의 귀로 들을 때 최대한 원래 신호와 차이가 없도록 소리를 재생한다.

상기 음원 부호화 방식은 저전송률 음성 부호화기로 주로 4.8Kbps 이하에서 동작하는 음성 부호화기에 대한 것이 주도적이다.

대표적인 음성 부호화기로는 LPC(Linear Predictive Coding)가 있다.

한편, 상기 파형 부호화 방식은 PCM처럼 음성파형을 변조하는 방식이며, 파형 부호화 방식의 목적은 정보 목적지에서 복원된 신호가 정보 발생지에서의 원래 신호의 모양을 그대로 보존하도록 하는데 있다.

따라서, 상기 파형 부호화 방식은 음성 신호 뿐만 아니라 크기가 제한된 다른 신호(예를 들면, PC 통신에서 사용되는 PSK(Phase Shift keying) 신호)에도 사용할 수 있다. 이와 같은 이유로 파형 부호화기는 보통 한 표본 단위로 동작하며 , 신호 대 잡음비(SNR)와 같은 객관적인 척도로 부호화기의 성능을 측정할 수 있다.

상기 파형 부호화 방식에는 PCM(Pulse Code Modulation), DM(Delta Modulation), APCM(Adaptive PCM), DPCM(Difference PCM), ADPCM(Adaptive Difference PCM) 등이 있다.

처음으로 널리 사용되기 시작한 표준 음성 부호화기는 1972년에 국제 규격으로 채택된 64Kbps PCM이다. 이 방식은 지금까지도 많은 디지털 시스템에 사용되고 있으며 특히 우리가 사용하고 있는 일반전화에서 이 방식이 이용되고 있다. 12년 뒤인 1984년에는 32Kbps ADPCM이 국제 규격으로 채택되었다. 이 부호화기는 64Kbps PCM에 비해 전송률을 반으로 낮춘 부호화기로 저전송률 음질 부호화기의 음질평가의 기준으로 많이 사용된다.

상기와 같은 파형 부호화 방식의 음성 부호화기는 16Kbps 이상에서는 음질이 좋으나 그 이하의 전송률에서는 음질의 저하가 심하다는 문제점이 있다. 그러나 비교적 간단하게 구현할 수 있고 계산량이 적기 때문에 아직도 여러 응용분야에서 이용되고 있다.

한편, 상기 혼합 부호화 방식은 상기 파형 부호화 방식과 음원 부호화 방식의 장점만을 사용하는 방식으로 원음과 복원음의 차이를 부호화하는 방식이다.

먼저, 음성 신호를 디지털 PCM으로 바꾼다음 보코더를 이용하여 PCM 64Kbps의 데이터를 가지고 목소리의 특징만을 뽑아낸다.

따라서, 8kbps정도의 저전송율에서도 우수한 음질을 유지한다.

상기 혼성 부호화 방식으로는 오차 신호의 모델링 방식에 따라 RELP(Residual Excited Linear Prediction), MPLPC(Multi-Pulse LPC), CELP(Code Excited Linear Prediction), VSELP(Vector Sum Exicited Linear Prediction), RPE-LTP(Regular Pulse Excited - Long Term Prediction), IMBE(Improved Multi - Band Excitation) 등이 있다.

상기 원음과 복원음과의 오차 신호를 부호화하여 전송하는데 벡터 양자화 등이 사용된다.

상기 벡터 양자화 과정은 서로 다른 백색 가우시안 잡음(White Gaussian Noise)로 코드북(CodeBook)이라는 것을 구성해 놓고 입력되는 음성신호와 합성음과의 오차가 최소가 되는 최적의 백색 잡음열에 해당하는 인덱스를 대신 전송하여 압축효과를 얻어내는 것이다.

도 1은 일반적인 음성 부호화기와 상대방에게 음성 출력되기 위한 음성 전송 시스템의 블럭 구성도이다.

음성은 성대의 진동 유무에 따라 유성음과 무성음으로 구분된다.

상기 유성음은 성대(vocal folds)의 진동에 의해 발생한 주기성을 갖는 공기의 흐름이 성문(glottis)과 입술(lips) 사이의 공진특성을 갖는 구간인 성도(vocaltrack)을 지나면서 나는 소리이며 상기 무성음은 성대의 진동없이 빠른 속도의 공기 흐름이 수축된 성도를 지나면서 나오는 소리이다.

사람이 말을 할 때 성도의 모양은 시간에 따라 변화하므로 음성신호는 비고정적인(nonstationary) 특성을 갖게 된다.

따라서 시변(time-varying) 디지털 필터로 성도(vocal tract)의 특성을 나타내고 유성음/무성음 여부에 따라 입력 신호를 주기적인 임펄스 트레인 또는 백색잡음(white noise)성분으로 여기(excitation)시켜 주는 음성 발생 모델을 구성할 수 있다.

도 1을 참조하면, 사용자가 음성 통신 장치를 이용하여 상대방에게 음성을 전달하기 위하여 음성 전송 시스템은, 음성 신호가 입력되는 LPC 분석기(linear predictive coding analysis, 100), 피치 검파기(pitch detector, 110), 부호화기(coder, 120), 복호화기(decoder, 130), LPC 합성기(LPC synthesis, 140)를 포함하여 구성된다.

상기 음성 부호화기는 음성 신호를 부호화하기 위하여 상기 음성 신호를 피치(pitch)와 엔벨로프(envelope)로 구하여 전송한다.

상기 음성 신호가 입력되는 LPC 분석기(100)에서는 음성 스펙트럼의 엔벨로프 특성을 반영하는 필터 계수가 얻어진다.

상기 피치 검파기(110)에서는 상기 음성 신호의 유성음/무성음을 구별하여 유성음일 경우에는 입력 신호로 피치 성분이 선택되고, 무성음의 경우에는 입력 신호로 백색 잡음이 선택된다.

상기 부호화기(120)는 LPC 분석을 통해 얻어진 필터 계수와 피치 검파기(110)에서 얻어진 변수를 이용하여 부호화되어 상대방에게 유선 또는 무선으로 채널(channel) 전송된다.

상기 복호화기(130)에서는 상기 채널을 통해 전송된 스트림을 디먹싱(demuxing)하여 복호화한다.

상기 LPC 합성기(140)에서는 상기 복호화된 음성 스트림을 음성 합성하여 음성 출력한다.

상기와 같은 구성을 가지는 종래 일반적인 음성 부호화기는 단순히 음성이 아날로그인 경우에는 단순 증폭하거나 디지털화하여 디지털 신호로 바꾸어 전송하고 인터페이스를 통해 유선 또는 무선으로 주고 받을 수 있도록 구현하여 음의 왜곡과 잡음의 발생이 최소화되도록 하여 가능한 원음 그대로 복원하는데 그 역할이 있다.

그러나, 요즘과 같이 대부분의 사람들이 전화기를 사용하고 있고, 그 사용 빈도도 급격히 늘어난 시점에서 단순히 본인의 음성을 그대로 주고 받고 하는 것만으로는 사용자의 욕구를 만족시키기에는 부족한 점이 있다.

또한, 사회가 불안해 짐에 따라 혼자 집을 지키고 있는 여성이 걸려오는 전화에 대하여 남성의 목소리로 응대하고 싶은 경우가 발생할 수 있다.

또한, 전화기를 이용하여 자신의 목소리와 다른 형태의 목소리로 음성 메시지나 음성 메일을 만들어 수신자에 보냄으로써 재미를 느끼고자 하는 경우도 있을 수 있다.

본 발명은 상기의 요구에 부응하기 위한 것으로 음성 통신 장치에서 음성 메시지 또는 음성 메일을 전달하고자 할 때 사용자의 음성의 피치를 변화시킴으로써 음성을 통한 사생활 보호가 가능하고 다양한 음성으로 변화시킬 수 있도록 하는 음성 변조 장치 및 방법을 제공하는데 그 목적이 있다.

도 1은 일반적인 음성 부호화기와 상대방에게 음성 출력되기 위한 음성 전송 시스템의 블럭 구성도.

도 2는 본 발명에 따른 음성 변조 장치의 구성을 보여주는 블럭 구성도.

도 3은 본 발명에 따른 음성 변조 장치에서, 음성 신호를 입력받아 변조하는 과정을 보여주는 음성 변조 방법의 순서도.

<도면의 주요부분에 대한 부호 설명>

100, 200 : LPC 분석기 110, 210 : 피치 검파기

120, 230 : 부호화기 220 : 피치 변조기

130, 240 : 복호화기 140, 250 : LPC 합성기

상기한 목적을 달성하기 위하여 본 발명에 따른 음성 변조 장치는 입력되는 음성 신호의 엔벨로프(envelope) 특성을 반영하는 성도 필터 계수를 얻는 LPC 분석기와; 상기 음성 신호의 피치를 검출하는 피치 검출기와; 상기 피치 검출기에서 검출된 피치 주기를 변화시켜 음성 신호를 변조하는 피치 변조기와; 상기 LPC 분석기와 피치 변조기에서 얻어진 신호를 유, 무선으로 전송하기 위하여 부호화하여 비트 스트림으로 출력하는 부호화기;를 포함하여 구성된다.

상기한 목적을 달성하기 위하여 본 발명에 따른 음성 변조 방법은 사용자에 의해 입력되는 음성 신호를 분석하는 단계와; 상기 사용자가 음성 변조 기능을 선택하였는지 판단하는 단계와; 상기 음성 변조 기능이 적용되면 상기 음성 신호의 피치 주기를 변화시켜 음성 신호를 부호화하고, 상기 음성 변조 기능이 적용되지 않으면 상기 원 음성 신호를 직접 부호화하는 단계와; 상기 부호화된 신호를 비트 스트림으로 출력하는 단계;를 포함하여 수행하는 것을 특징으로 한다.

이하, 첨부한 도면을 참조로 하여 본 발명에 대해서 상세히 설명한다.

도 2는 본 발명에 따른 음성 변조 장치의 구성을 보여주는 블럭 구성도이다.

상기 음성 변조 장치는 LPC 분석기(200), 피치 검파기(210), 피치 변조기(220), 부호화기(230)를 포함하여 구성된다.

먼저, 입력된 음성 신호는 상기 LPC 분석기(200)와 피치 검파기(210)를 통과한다.

상기 음성 신호가 입력되는 LPC 분석기(200)에서는 음성 스펙트럼의 엔벨로프 특성을 반영하는 필터 계수가 얻어진다.

상기 LPC 분석기(200)에서는 과거의 신호들에 의해 현재의 신호를 예측하는 선형예측 방법(LPC)을 사용하여 상기 음성 스펙트럼에서 음성의 엔벨로프 특성을 반영하는 필터 계수를 얻는다.

상기 피치 검파기(210)에서는 상기 음성 신호의 유성음/무성음을 구별하여 유성음일 경우에는 입력 신호로 피치 성분이 선택되고, 무성음의 경우에는 입력 신호로 백색 잡음이 선택된다.

상기 유성음 발생에 대한 것으로 여기 신호(excitation signal)는 성대의 진동으로 변조된 공기의 흐름으로 볼 수 있다.

상기 여기 신호는 피치(pitch) 주기에 따라 주기적이며 그 스펙트럼은 신호의 주기성에 의한 조파(harmonics)를 보이게 된다.

상기 무성음 발생에 대한 것으로 성도의 특정 부분에서 공기의 흐름에 대한 압축현상(constriction)이 일어나고 이로 인해 공기의 난류상태(air turbulence)가 여기 신호가 되며 이 여기 신호는 잡음과 같은 성질을 갖게 된다.

상기 유성음의 피치는 임펄스 트레인(impulse train)으로 나타나고 상기 임펄스 트레인의 주기를 피치라고 하며 음의 높낮이와 관계가 있다.

남자와 여자의 음성 차이도 이와 같은 피치 성분의 하모닉 주파수 차이에서 발생한다.

상기 피치 변조기(220)는 상기 피치 검파기(210)로부터 입력된 피치에서 피치 주기(pitch period)를 이용하여 다양하게 변화시키며 상기 LPC 분석기(200)와 피치 변조기(220)에서 얻어진 변수를 이용하여 부호화기(230)에서 부호화한 후 최종적으로 비트 스트림을 출력한다.

상기 변조 과정은 사용자가 음성 변조를 선택했을 경우에 적용되며 사용자가 음성 변조를 선택하지 않았을 경우에는 상기 변조 과정은 적용되지 않고 부호화된다.

상기와 같이 부호화된 음성 변조 신호는 상대방에게 유, 무선 채널을 통해 전송된다.

상대방의 음성 통신 장치에는 복호화기와 LPC합성기를 구비하고 있으며, 상기 복호화기에서는 채널을 통해 전송된 스트림을 디먹싱하여 전송된 변수를 찾고, 이를 이용하여 상기 LPC 합성기에서 음성 합성하여 출력한다.

상기와 같은 구성을 가지는 음성 변조 장치의 동작을 예를 들어 설명하면 다음과 같다.

젊은 여성의 사용자가 친구에게 음성 메일을 보내기 위해 이동 통신 단말기에 음성을 입력하고 남성 목소리로 변조하기 위한 음성 변조 기능을 선택하였다고 하자.

상기 젊은 여성의 목소리는 주기적인 특성을 가지는 임펄스 트레인의 스펙트럼(spectrum)을 가지며, 상기 임펄스 트레인의 주기가 상기 젊은 여성의 음성 피치가 된다.

따라서, 상기 젊은 여성의 목소리를 남성의 목소리로 변조하기 위해서 상기 임펄스 트레인의 주기 즉, 피치를 낮추어 변조한다.

상기와 같이 변조된 젊은 여성의 목소리는 상대방에게 음성 메일로 전달되어 남성의 목소리로 출력되게 된다.

도 3은 본 발명에 따른 음성 변조 장치에서, 음성 신호를 입력받아 변조하는 과정을 보여주는 음성 변조 방법의 순서도이다.

사용자의 음성 신호가 입력되면, LPC 분석 및 오토 코럴레이션(auto correlation) 등을 통해서 상기 음성 신호의 피치와 엔벨로프 특성을 반영하는 성도 필터 계수(vocal tract filter parameter)로 나뉘게 되어 분석된다(S100).

상기 사용자에 의해 음성 변조 기능이 적용되는지를 판단하여(S110) 상기 음성 변조가 적용되면 음성의 피치를 사용자의 요구에 맞도록 변조한다(S120).

상기 음성 변조는 음성 신호의 임펄스 트레인의 주기를 변화시킴으로써 가능하다.

상기 음성 변조후에는 음성 처리를 하는데, 상기 음성 처리는 변조된 음성을 부호화하고(S130) 상기 부호화 단에서 비트 스트림(bit stream) 출력하여(S140) 채널을 통해 전송하고 복호화 한후 LPC 합성하여 상대방에게 음성 출력한다.

만일, 사용자에 의해 음성 변조 기능이 적용되지 않는다면, 음성 변조하지않고 음성 신호를 부호화하여(S130) 상기 부호화단에서 비트 스트림으로 출력하여(S140) 채널을 통해 상대방에게 전달한다.

본 발명에 따른 음성 변조 장치는 음성 통신 기기에 장착되어 본인의 음성 그대로 뿐 아니라 다양한 음색으로 본인의 음성 피치를 변조하여 음성 메일 또는 음성 메시지를 상대방에게 전송하는 것이 가능하도록 함으로써 현대인의 다양한 욕구를 충족시킬 수 있는 효과가 있다.

또한, 본 발명은 IMT-2000 서비스를 실행하여 MMS가 가능한 음성 통신 장치에서 음성을 통한 발신자 확인 보호 기능도 가능하므로 사생활을 보호해 주는 효과가 있다.

Claims

입력되는 음성 신호의 엔벨로프(envelope) 특성을 반영하는 성도 필터 계수를 얻는 LPC 분석기와;

상기 음성 신호의 피치를 검출하는 피치 검출기와;

상기 피치 검출기에서 검출된 피치 주기를 변화시켜 음성 신호를 변조하는 피치 변조기와;

상기 LPC 분석기와 피치 변조기에서 얻어진 신호를 유, 무선으로 전송하기 위하여 부호화하여 비트 스트림으로 출력하는 부호화기;를 포함하여 구성되는 음성 변조 장치.
사용자에 의해 입력되는 음성 신호를 분석하는 단계와;

상기 사용자가 음성 변조 기능을 선택하였는지 판단하는 단계와;

상기 음성 변조 기능이 적용되면 상기 음성 신호의 피치 주기를 변화시켜 음성 신호를 부호화하고, 상기 음성 변조 기능이 적용되지 않으면 상기 원 음성 신호를 직접 부호화하는 단계와;

상기 부호화된 신호를 비트 스트림으로 출력하는 단계;를 포함하여 수행하는 것을 특징으로 하는 음성 변조 방법.