KR920003934B1

KR920003934B1 - 음성합성기의 복합코딩방법

Info

Publication number: KR920003934B1
Application number: KR1019890015831A
Authority: KR
Inventors: 이윤근
Original assignee: 주식회사 금성사; 이헌조
Priority date: 1989-10-31
Filing date: 1989-10-31
Publication date: 1992-05-18
Also published as: KR910008648A

Abstract

내용 없음.

Description

음성합성기의 복합코딩방법

제 1 도는 본 발명 음성합성기의 복합코딩방법에 대한 구성도.

제 2 도는 본 발명의 신호흐름도.

* 도면의 주요부분에 대한 부호의 설명

1 : 키이보드 2 : 퍼스널컴퓨터

3 : 모니터 4 : 인터페이스부

5 : DSP 6 : 어드레스디코더

7 : 버퍼 8 : 프로그램롬

9 : 음성데이타롬 10 : D/A 변환기

11 : 증폭부 SP : 스피커

본 발명은 음성합성기의 코딩(Coding)기법에 관한 것으로, 특히 유성음은 선형예측부호화(LPC)기법을 이용하고 무성음은 ADPCM(Adaptive Difference Pulse Code Modulation : ADPCM)기법을 이용하여 합성음을 얻을 수 있도록 한 음성 합성기의 복합코딩방법에 관한 것이다.

종래의 음성합성기에 있어서는 LPC, 포맨트(Formant)에 의한 소오스코딩(Source Coding)기법이나 DPCM(Difference Pulse Code Modulation), ADPCM을 이용한 웨이브(Wave)코딩기 법중 한가지를 선택하여 사용하였다.

그러나 소오스 코딩의 경우 데이타의 감축효과가 좋고 음율조절이 용이하나 파열음등의 무성음 합성으로 인하여 음의 명료성이 떨어져 음질이 불량하게 되는 문제점이 있고, 웨이브 코딩의 경우 음질은 양호하나 데이타 양이 많고 음율조절이 어려운 문제점이 있었다.

본 발명은 이와같은 종래의 문제점을 해결하기 위하여 데이타의 감축효과를 갖으면서도 음의 명료성을 높게할 수 있는 방법을 창안한 것으로 이를 첨부한 도면에 의하여 상세히 설명한다.

제 1 도는 본 발명 음성합성기의 복합코딩방법에 대한 구성도로서 이에 도시한 바와같이, 키이보드(1)에서 선택되어 퍼스널컴퓨터(2)에 입력되는 키이신호를 인터페이스하는 인터페이스부(4)와, 상기 인터페이스부(4)로부터 입력된 데이타에 따라 프로그램롬(8)에 내장된 프로그램을 이용하여 음성데이타롬(9)으로부터 해당 데이타를 읽어온 후 이를 합성하여 출력하는 DSP(Digital Signal Processor)(5)와, 상기 DSP(5)에서 합성된 데이터를 아날로그신호로 변환한 다음 이를 증폭부(11)를 통해 스피커(SP)에 출력하는 디지털(D)/아날로그(A)변환기(10)로 구성한 것으로 이와같이 구성된 본 발명의 구성도 및 신호흐름도인 제 2 도를 참조하여 본 발명을 설명하면 다음과 같다.

한국어의 초성은 19개의 음소와 49개의 변이음을 갖는 반면 종성은 단지 7개의 대표음만 갖으므로 중성+종성의 갯수가 그다지 많지않은 장점이 있으므로 이를 이용하여 본 시스템에서는 초성과 중성+종성으로 구성된 초성분리음절을 합성단위로 하였다.

유성음의 경우에는 포맨트 엔벨로프가 명확하고 음원도 임펄스트레인(Impulse Train)이므로 LPC를 이용해 합성하여도 비교적 명료한 음성을 합성해 낼 수가 있고, 또한 피치(pitch)조절에 의한 음율조정도 용이하나, 그러나 무성음의 경우에는 음율조절이 불필요하고 비교적 짧으며 LPC에 의해 명확한 음을 합성해내기 곤란하므로 ADPCM을 이용하는 것이 효과적이다.

그리고 한국어는 그 특성상 영어와는 달리 무성음으로 끝나는 경우가 없음을 감안하여 본 시스템에서는 초성중에서 무성음은 ADPCM에 의해 코딩을 하고, 초성중 유성음과 중성+종성은 LPC에 의해 코딩을 함으로써 효과적이고 음질이 양호한 음성합성을 실현할 수 있게하였다.

먼저, 상기한 바와같이 유성음 초성과 중성+종성의 경우 에너지, 피치, LPC계수를, 무성음 초성의 경우에는 ADPCM된 데이타를 음성데이타롬(9)에 저장한 후, 키이보드(1)를 통해 한글문자데이타가 퍼스널컴퓨터(2) 및 인터페이스부(4)를 통해 DSP(5)에 입력되면, 그 DSP(5)는 음운변화 규칙에 의해 소리나는대로 표기를 변환하여 이를 초성과 중성+종성으로 나누고, 이어서, 어드레스디코더(6)를 통해 프로그램롬(8)의 칩셀렉터단자(s)를 선택함과 아울러 버퍼(7)를 통해 어드레스단자(A)를 지정하여 데이타버스를 통해 해당데이타를 읽어온다음, 다시 상기 어드레스디코더(6) 및 버퍼(7)를 통해 음성데이타롬(9)에 내장된 해당음성데이타를 수집하여 무성음의 경우에는 ADPCM디코딩하며, 유성음의 경우는 LPC합성필터를 통해 음성을 합성해 내고, 이때 필요에 따라 중성+종성데이타의 피치를 조절해 줌으로써 자연스러운 음율을 생성할 수 있다.

상기에서 유성음의 경우 인터폴레이션은 프레임간 음성특성의 급격한 변화를 방지해주는 역할을 하고, LPC디코딩시 음원으로는 유성음이므로 임펄스트레인을 사용하였다.

이와같이 합성된 음성데이타는 D/A변환기(10)에서 아날로그신호로 변환된 후 증폭부(11)를 통해 스피커(SP)에 전달되게 된다.

이상에서 상세히 설명한 바와같이 본 발명은 음절을 한국어의 특성에 맞게 초성과 중성+종성으로 분리하고, 유성음과 무성음을 각 신호의 특성을 고려하여 각각 다른 방법으로 코딩함으로써 좋은 음질을 보장하면서도 충분하게 데이타를 감축할 수 있는 이점이 있다.

Claims

DSP(5)주변에 키이보드(1), 퍼스널컴퓨터(2), 인터페이스부(3) 및 음성데이타롬(9), 프로그램롬(8), D/A변환기를 구비한 후, 무성음은 ADPCM코딩하고, 유성음은 LPC코딩하여 상기 음성데이타롬(9)에 저장하며, 상기 키이보드(1) 및 퍼스널컴퓨터(2) 인터페이스부(4)를 통해 한글문자데이타가 상기 DSP(5)에 입력될 때, 그 DSP(5)는 입력된 데이터를 음운 변화규칙에 의해 소리나는대로 표기를 변환함과 아울러 초성과 중성+종성으로 분리한 다음 상기 프로그램롬(8)을 이용해 상기 음성데이타롬(9)으로부터 해당데이타를 읽어 무성음의 경우에는 ADPCM디코딩을 행하고, 유성음의 경우는 LPC합성필터를 통해 음성을 합성하는 것을 특징으로 하는 음성합성기의 복합코딩방법.