KR20080060911A - Method for outputting synthesis to individual voice - Google Patents

Method for outputting synthesis to individual voice Download PDF

Info

Publication number
KR20080060911A
KR20080060911A KR1020060135538A KR20060135538A KR20080060911A KR 20080060911 A KR20080060911 A KR 20080060911A KR 1020060135538 A KR1020060135538 A KR 1020060135538A KR 20060135538 A KR20060135538 A KR 20060135538A KR 20080060911 A KR20080060911 A KR 20080060911A
Authority
KR
South Korea
Prior art keywords
voice
personal
information
sentence
database
Prior art date
Application number
KR1020060135538A
Other languages
Korean (ko)
Inventor
김재민
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020060135538A priority Critical patent/KR20080060911A/en
Publication of KR20080060911A publication Critical patent/KR20080060911A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

A method for synthesizing a personal voice and outputting the same are provided to output a desired personal voice without giving a much burden to a memory capacity. A sentence to be outputted as a voice is received(S31). A number, a symbol or an English language included in the inputted sentence is pre-processed so as to be converted into Hangul(S32) and the converted sentence is converted into a combination of successive dual-formant sequences(S33). A rhythm is estimated by using context information of the dual-formant sequences and a target pitch and a duration predicted through the context information(S34), and an optimal voice candidate of the dual-formant sequences is selected by using a viterbi search(S35). It is checked over whether or not the selected voice candidate has been extracted from a personal voice DB(S36). If the selected voice candidate has been extracted from the personal voice DB, a synthetic unit sound is generated(S38). The synthetic unit sound is connected and smoothed to generate a synthesized sound(S39).

Description

개인 음성을 합성하여 출력하는 방법{method for outputting synthesis to individual voice}Method for outputting synthesis to individual voice

도 1은 본 발명의 실시 예에 따른 개인 음성DB를 수집하는 방법을 나타내는 플로우 차트.1 is a flowchart illustrating a method of collecting a personal voice DB according to an embodiment of the present invention.

도 2는 본 발명의 실시 예에 따른 개인 음성DB를 구축하는 방법을 나타내는 플로우 차트.2 is a flowchart illustrating a method of constructing a personal voice DB according to an embodiment of the present invention.

도 3은 본 발명은 실시 예에 따른 개인 음성의 합성 방법을 나타내는 플로우챠트.3 is a flowchart illustrating a method of synthesizing a personal voice according to an embodiment of the present invention.

본 발명은 개인용 음성을 합성하여 출력하는 방법에 관한 것이다. The present invention relates to a method for synthesizing and outputting personal speech.

현재 휴대 단말기(이동통신 단말기, PDA 등) 시장이 확장됨에 따라 휴대 단말기 상에서 구동되는 소프트웨어가 다양하게 개발되고 있으며 최근의 휴대 단말기에는 음성을 합성하는 소프트웨어가 탑재된 제품이 출시되고 있다. 대표적인 음성합성 방식으로는 파라메트릭(parametric) 방식과 음성 코퍼스를 이용한 방식이 있다. As the market of portable terminals (mobile communication terminals, PDAs, etc.) expands, various softwares are being developed on the portable terminals. Recently, products equipped with software for synthesizing voices have been released. Typical speech synthesis methods include a parametric method and a method using a voice corpus.

상기 음성 코퍼스(corpus)에 기반한 방식은 운율을 변화시키지 않으면서 그에 적합한 합성단위 예로, 반음절, 이중음소(diphone), 삼중음소(triphone) 등을 찾아 이를 연결하는 방식이다.The voice corpus-based method is a method of finding and connecting half-syllables, diphones, triphones, and the like, as a synthesis unit suitable for the same without changing the rhyme.

하지만 종래의 휴대폰용 코퍼스 방식의 음성합성은 데이터베이스를 구축할 때 사용된 목소리로만 음성합성이 되기 때문에 다양한 목소리로 출력되기 원하는 사용자의 욕구를 충족하지 못하는 문제점이 발생한다.However, since the conventional voice synthesis of the corpus method for a mobile phone is only synthesized by the voice used when constructing the database, there is a problem in that it does not satisfy a user's desire to output various voices.

본 발명은 상기 문제점을 해결하기 위해 안출된 것으로서, 휴대폰 사용자뿐만 아니라 다양한 목소리를 데이터베이스로 구축하고 음성을 합성할 수 있도록 하는 개인 음성을 합성하여 출력하는 방법을 제공함에 있다. The present invention has been made to solve the above problems, to provide a method for synthesizing and outputting a personal voice that can be composed of a variety of voices as well as a mobile phone user as a database and synthesize the voice.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 개인 음성을 합성하여 출력하는 방법은, 음성을 수집하여 개인음성 데이터베이스를 구축하는 단계; 상기 개인음성 데이터베이스를 이용하여 개인음성의 특징정보를 추출하고 상기 추출된 특징정보를 이미 저장되어 있는 기본음성 데이터베이스의 음성정보에 적용하는 단계; 문장을 입력받고 해당하는 음성을 상기 개인음성 데이터베이스와 기본음성 데이터베이스에서 추출하는 단계; 상기 기본음성 데이터베이스에서 추출된 음성은 상기 적용되어 있는 개인음성의 특징정보를 이용하여 음색변환하는 단계; 상기 개인음성 데이터베이스에서 추출된 음성와 상기 기본음성 데이터베이스에서 추출되어 음색변환된 음성을 합성하여 음성의 합성음을 생성하고 출력하는 단계;를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, a method for synthesizing and outputting a personal voice includes: collecting a voice to construct a personal voice database; Extracting feature information of the personal voice using the personal voice database and applying the extracted feature information to voice information of a basic voice database that is already stored; Receiving a sentence and extracting a corresponding voice from the personal voice database and the basic voice database; Converting a voice extracted from the basic voice database by using feature information of the applied personal voice; And synthesizing the voice extracted from the personal voice database and the voice converted from the basic voice database and converted into a tone to generate and output a synthesized sound of the voice.

본 발명에서, 상기 개인 음성의 수집을 위해, 문장 단위의 스크립트를 제시하고 상기 스크립트를 읽는 음성을 녹음하여 음성을 수집하는 단계를 더 포함하는 것을 특징으로 한다.In the present invention, the collection of the personal voice, it is characterized in that it further comprises the step of collecting the voice by presenting the script of the sentence unit and recording the voice reading the script.

본 발명에서, 상기 개인음성 데이터베이스의 구축은, 수집된 개인 음성을 억양구를 이용하여 이중음소열로 분리하여 군집화하는 단계; 각각의 군집별로 피치와 지속시간을 추출하여 유효성을 검증하는 단계; 상기 검증된 음성의 켑스트럼 정보를 추출하고 상기 추출된 피치, 지속시간, 켑스트럼 정보 중 어느 하나 이상의 정보를 수치로 테이블화하여 저장하는 단계;를 더 포함하는 것을 특징으로 한다.In the present invention, the construction of the personal voice database comprises the steps of: separating and clustering the collected individual voices into a double phoneme sequence using an accent; Verifying validity by extracting pitch and duration for each cluster; Extracting the cepstrum information of the verified voice and extracting any one or more pieces of information of the extracted pitch, duration, and cepstrum information. And storing the table by numerical values.

본 발명에서, 상기 문장을 입력받고 해당하는 음성을 추출하는 것은, 상기 입력된 문장을 전처리하고 이중음소열의 조합으로 변환하는 단계; 상기 이중음소열의 문장열 정보를 통해 예측된 목표 피치와 지속시간을 이용하여 운율을 추정하고, 비터비 서치를 이용하여 입력된 문장에 해당하는 음성을 데이터베이스에서 선택하는 단계;를 더 포함하는 것을 특징으로 한다.In the present invention, receiving the sentence and extracting the corresponding voice, the step of pre-processing the input sentence and converting to a combination of the double phoneme string; Estimating a rhyme using a target pitch and duration predicted through the sentence information of the double phoneme string, and selecting a voice corresponding to the input sentence using a Viterbi search from a database; It is done.

본 발명에서, 상기 개인음성 특징정보는 피치, 지속시간, 켑스트럼 중 어느 하나 이상을 포함하는 정보인 것을 특징으로 한다.In the present invention, the personal voice characteristic information is characterized in that the information including any one or more of pitch, duration, cepstrum.

본 발명은 음성합성을 수행하기 위해 기본적으로 음성합성기의 메모리에 저장되어 있는 음성 데이터베이스(database, 이하 DB)를 기본 음성DB로 지칭하고, 음성합성을 위해 임의의 목소리로 녹음되는 음성 데이터베이스를 개인 음성DB로 지칭하여 설명한다.The present invention basically refers to a voice database (DB) stored in the memory of a voice synthesizer as a basic voice DB to perform voice synthesis, and a voice database recorded with an arbitrary voice for voice synthesis. This is referred to as DB.

본 발명은 음성합성기에 저장되어 있는 기본 음성DB와, 사용자가 녹음한 개인 음성DB를 이용하여 상기 개인 음성DB로부터 개인의 음성의 특징을 추출하고 추출된 음성 특징을 이용하여 기본 음성DB에서 추출한 음성에 대해 음색변환을 수행하고, 상기 개인 음성DB에서 추출한 음성과 기본 음성DB에서 추출한 음성을 병합하여 개인음성과 유사한 음성을 출력하는 것을 특징으로 한다.The present invention extracts a feature of a person's voice from the personal voice DB using a basic voice DB stored in a voice synthesizer and a personal voice DB recorded by a user, and extracts a voice from the basic voice DB using the extracted voice feature. Tones are performed, and a voice similar to the personal voice is output by merging the voice extracted from the personal voice DB and the voice extracted from the basic voice DB.

상기와 같은 방법으로 기본 음성DB에 있는 한가지 목소리로만 음성을 출력하는 문제점을 해결하여 사용자에게 원하는 음성을 녹음하고 녹음된 음성으로 출력할 수 있는 것을 특징으로 하며, 이하 첨부된 도면을 참조하여 본 발명의 실시 예를 자세히 설명한다. By solving the problem of outputting only one voice in the basic voice DB by the above method, it is possible to record the desired voice to the user and output the recorded voice, with reference to the accompanying drawings. An embodiment of the present invention will be described in detail.

도 1은 본 발명의 실시 예에 따른 개인 음성DB를 수집하는 방법을 나타내는 플로우 차트이다.1 is a flowchart illustrating a method of collecting a personal voice DB according to an embodiment of the present invention.

도 1을 참조하면, 개인 음성DB를 수집하기 위해 문장단위로 제시되는 스크립트를 사용자가 읽음으로써 음성을 녹음한다. 여기서, 상기 스크립트로 제시되는 문장은 개인 음성의 특징을 쉽게 추출할 수 있는 빈번하게 사용되는 단어를 위주로 만든 문장이며, 스크립트로 제시되는 문장은 변경가능하다. Referring to FIG. 1, a voice is recorded by a user reading a script that is presented in units of sentences to collect a personal voice DB. Here, the sentence presented by the script is a sentence made mainly of frequently used words that can easily extract the characteristics of the personal voice, and the sentence presented by the script is changeable.

먼저, 개인 음성DB를 수집하기 위해 문장으로 구성된 스크립트를 제시한다(S11). 예를 들면, 상기 스크립트는 휴대 단말기의 화면창에 디스플레이되고 이를 사용자가 읽을 수 있도록 한다. First, a script consisting of sentences is presented to collect a personal voice DB (S11). For example, the script is displayed on the screen of the portable terminal and can be read by the user.

이후, 상기 문장 단위로 제시된 스크립트를 읽음으로써 개인 음성을 녹음한다(S12). 예를 들면, 휴대 단말기 사용자는 단말기의 화면창에 제시되는 스크립트 를 확인하고 녹음시작을 알리는 신호음이 들리면 문장을 읽음으로써 자신의 음성을 녹음한다.Thereafter, the personal voice is recorded by reading the script presented in the sentence unit (S12). For example, the user of the portable terminal checks the script displayed on the screen of the terminal and records his / her voice by reading a sentence when a beep sound is announced to indicate the start of recording.

이후, 녹음한 음성이 유효한지 판단한다(S13). 즉, 입력되는 음성이 제대로 인식되었는지 판단하여 제대로 인식되지 않으면 재녹음을 수행한다(S14).Then, it is determined whether the recorded voice is valid (S13). That is, it is determined whether the input voice is properly recognized, and if not properly recognized, re-recording is performed (S14).

이후, 녹음한 음성이 유효하면 개인 음성DB로 수집하기 위한 최소 스크립트가 녹음되었는지 판단한다(S15). 예를 들면, 개인 음성DB를 수집하기 위한 최소 10개 이상의 스크립트가 제대로 녹음되었는지 판단하며, 상기 녹음하기 위한 최소 스크립트의 수는 변경 가능하다.Thereafter, if the recorded voice is valid, it is determined whether the minimum script for collecting to the personal voice DB is recorded (S15). For example, it is determined whether at least 10 or more scripts for collecting the personal voice DB are properly recorded, and the minimum number of scripts for recording can be changed.

상기 판단결과, 최소 스크립트 수가 녹음되어 있지 않으면 단계 S11로 이동하여 최소 스크립트 수가 유효하게 녹음될 때까지 반복 수행하고, 최소 스크립트 수가 녹음되어 있으면 녹음 완료 메시지를 출력하여 사용자가 녹음을 종료할 수 있도록 알린다(S16). As a result of the determination, if the minimum number of scripts is not recorded, go to step S11 to repeat until the minimum number of scripts is effectively recorded, and if the minimum number of scripts is recorded, output a recording completion message to inform the user to end recording. (S16).

상기 개인 음성은 수집은 단말기 사용자뿐만 아니라 다양한 사람의 목소리를 상기 방법으로 녹음하여 개인 음성DB를 수집할 수 있으며, 개인 음성의 특징을 추출할 수 있는 최소의 음성을 녹음하기 때문에 DB 저장 용량에 크게 영향을 주지 않는다.The personal voice can be collected by recording the voices of various people as well as the terminal user in the above manner, and collecting a personal voice DB, and recording a minimum voice that can extract the characteristics of the personal voice. Does not affect

즉, 상기와 같은 방법으로 개인 음성DB를 구축하면 기존 10시간에서 40시간의 음성을 녹음하여 음성 DB를 구축하는 것과는 달리 10분 정도의 개인 음성 녹음을 통해 적은 메모리 용량을 사용하면서 개인 음성DB를 수집할 수 있다. In other words, if you build a personal voice DB as described above, unlike the existing 10 hours to 40 hours of voice recording to build a voice DB, 10 minutes of personal voice recording through a personal voice DB while using a small memory capacity Can be collected.

또한 PC를 이용하여 개인 음성DB 구축을 위한 스크립트를 표시하고 이를 음 성으로 녹음하여 휴대 단말기 등의 음성합성을 위한 기기로 전송할 수 있다.In addition, it is possible to display a script for personal voice DB construction using a PC, record it as a voice, and transmit it to a device for voice synthesis such as a mobile terminal.

도 2는 본 발명의 실시 예에 따른 개인 음성DB를 구축하는 방법을 나타내는 플로우 차트이다.2 is a flowchart illustrating a method of constructing a personal voice DB according to an embodiment of the present invention.

도 2를 참조하면, 상기 수집된 개인 음성을 억양구(intonational phrase) 단위로 분리하는 1차분절표기를 수행한다(S21). 자세히 설명하면 녹음된 개인 음성DB를 음운학적 특징(발성패턴)인 억양구을 이용하여 이중음소열(diphone)로 분리하여 군집화한다.Referring to FIG. 2, a primary segmentation mark is performed to separate the collected individual voices into units of intonation phrases (S21). In detail, the recorded personal voice DB is divided into a double phoneme string (diphone) using an intonation, which is a phonological characteristic (voice pattern), and clustered.

예를 들면, 상기 음운학적 특징인 발성패턴은 음성의 톤이 올라가는 강세구(accentual phrase), 음성의 톤이 일정하게 유지되는 중간구(intermediate phrase), 음성의 톤이 내려가는 억양구(intonational phrase)를 포함하여 구분되며, 문장 단위로 녹음된 개인 음성DB에 대해 상기 억양구가 나타내는 부분에 따라 분리하면 녹음된 문장을 이중음소열로 분리하여 군집화할 수 있다. For example, the phonological pattern of phonological characteristics may include an accentual phrase in which the tone of the voice is raised, an intermediate phrase in which the tone of the voice is kept constant, and an intonational phrase in which the tone of the voice is lowered. Including and distinguishing the individual voice DB recorded in units of sentences according to the portion represented by the intonation, the recorded sentences can be divided into a double phoneme string and clustered.

이후, 1차분절표기를 수행한 결과를 이용하여 분리된 문장을 음소단위로 피치(pitch)정보, 지속시간(duration)정보를 추출하는 2차분절표기를 수행한다(S22). 즉, 상기 이중음소열로 분리된 문장에 대해 음소단위로 피치와 지속시간 정보를 추출한다.Subsequently, the second segment notation is performed by extracting the pitch information and the duration information in the phoneme unit by using the result of performing the first segment notation (S22). That is, pitch and duration information are extracted in phoneme units for the sentence divided into the double phoneme strings.

이후, 상기 피치와 지속시간의 유효성을 검증하여 오류 발생여부를 판단하고(S23), 오류가 발생하면 단계 S22로 이동하여 음소단위로 피치와 지속시간 정보를 다시 추출하는 수정과정을 거쳐 오류가 발생하지 않을 때가지 반복한다.Thereafter, the validity of the pitch and duration is verified to determine whether an error occurs (S23), and if an error occurs, an error occurs through a modification process of extracting the pitch and duration information in units of phonemes again in step S22. Repeat until you do not.

이후, 상기 유효성 검증결과 오류가 발생하지 않으면, 음소단위로 켑스트럼 (cepsturm) 정보를 추출하고(S25), 추출된 정보들을 이용하여 음성합성기에 사용할 수 있도록 개인 음성DB를 컴파일한다(S26).After that, if the error does not occur as a result of the validation, cepsturm information is extracted in a phoneme unit (S25), and a personal voice DB is compiled for use in a speech synthesizer using the extracted information (S26). .

이후, 상기 추출된 피치, 지속시간, 켐스트럼 정보로부터 개인운율정보를 추출하여 테이블화한다(S27). 즉, 개인운율정보란 개인 음성의 특징을 말하며 개인 음성의 특징인 피치, 지속시간, 켑스트럼 등의 평균수치를 테이블화(table)하여 개인 음성DB에 녹음된 개인 음성의 특징정보를 수치화 할 수 있다.Thereafter, the personal rhyme information is extracted and tabulated from the extracted pitch, duration, and chemtrum information (S27). That is, the personal rhyme information refers to the characteristics of the personal voice, and the characteristics of the personal voice recorded in the personal voice DB can be digitized by tabulating the average values of pitch, duration, and spectrum, which are the characteristics of the personal voice. Can be.

이후, 추출된 개인운율정보를 이용하여 기본 음성DB의 정보를 수정한다(S28). 즉, 기본 음성DB의 피치, 지속시간, 켑스트럼 정보 등의 수치를 상기 개인 음성DB에서 추출된 평균수치로 수정하는 것이다. After that, the information of the basic voice DB is modified using the extracted personal rhyme information (S28). In other words, the numerical values such as pitch, duration, and cepstrum information of the basic voice DB are corrected to the average values extracted from the personal voice DB.

이후, 수집된 개인 음성DB를 압축하여 저장한다(S29).Thereafter, the collected personal voice DB is compressed and stored (S29).

도 3은 본 발명은 실시 예에 따른 개인 음성의 합성 방법을 나타내는 플로우챠트이다.3 is a flowchart illustrating a method of synthesizing a personal voice according to an embodiment of the present invention.

도 3을 참조하면, 음성으로 출력할 문장을 입력받는다(S31). 예를 들면 문자메시지, 일정, 발신자 음성안내 등의 음성으로 출력할 문장을 입력받을 수 있다.Referring to FIG. 3, a sentence to be output by voice is received (S31). For example, it is possible to receive a sentence to be output by voice, such as a text message, schedule, caller voice guidance.

이후, 상기 입력된 문장에 포함된 숫자, 기호, 영어 등을 전처리하여 한글로 변환하고(S32), 변환된 문장을 연속하는 이중음소열의 조합으로 변환한다(S33).Thereafter, numbers, symbols, English, etc. included in the input sentence are preprocessed and converted into Korean characters (S32), and the converted sentences are converted into a combination of consecutive double phoneme strings (S33).

예를 들면, 음성으로 합성할 문장을 언어처리 모듈(G2P:Grapheme to Phoneme)을 이용하여 연속하는 이중음소열의 조합으로 변환한다.For example, a sentence to be synthesized by speech is converted into a combination of consecutive double phoneme strings using a language processing module (G2P: Graphic to Phoneme).

이후, 상기 각각의 이중음소열의 문장열(context)정보와 상기 문장열 정보를 통해 예측된 목표 피치와 지속시간을 이용하여 운율을 추정하고(S34), 비터비 서치 (viterbi search)를 이용하여 최적의 이중음소열의 음성후보를 선택한다(S35).Subsequently, the rhythm is estimated using the context information of the respective double phoneme strings and the target pitch and the duration predicted through the sentence information (S34), and optimized using a Viterbi search. The voice candidate of the double phoneme sequence is selected (S35).

예를 들면, 음성으로 합성할 문장을 이중음소열의 조합으로 변환하면 상기 이중음소열 단위로 나누어진 문장에 해당하는 최적의 음성후보를 비터비 서치를 이용하여 선택하는 것이다.For example, when a sentence to be synthesized by speech is converted into a combination of double phoneme strings, an optimal voice candidate corresponding to a sentence divided by the double phoneme string units is selected using Viterbi search.

이후, 상기 선택된 음성후보가 개인 음성DB에서 추출되었는지 판단한다(S36). 상기 판단결과 개인 음성DB에서 추출되지 않았으면, 기본 음성DB에서 추출되었되었다는 것이므로 상기 도 2에서 설명한 바와 같이 개인 음성DB의 수치화된 개인운율정보인 피치, 지속시간, 켑스트럼 등의 수치와 유사하게 상기 기본 음성DB에서 추출된 음성을 음색 변환하여 합성 단위음을 생성하고(S37), 상기 판단결과 개인 음성DB에서 추출되었으면 다른 변환과정없이 합성 단위음을 생성한다(S38).Then, it is determined whether the selected voice candidate is extracted from the personal voice DB (S36). If the determination result is not extracted from the personal voice DB, it is extracted from the basic voice DB, and thus, similar to the numerical values such as pitch, duration, and cepstrum, which are digitized personal rhyme information of the personal voice DB, as described in FIG. Tone conversion of the voice extracted from the basic voice DB to generate a synthesized unit sound (S37), if it is extracted from the personal voice DB as a result of the determination generates a synthesized unit sound without any other conversion process (S38).

이후, 상기 합성 단위음을 연결하고 평탄화하여 합성음을 생성한다(S39). 즉, 상기 입력된 문장에 부합되는 음성의 최적 후보를 개인 음성DB와 기본 음성DB에서 추출하고, 상기 기본 음성DB에서 추출된 음성은 개인음성과 유사하게 음색변환하여 추출된 개인 음성과 기본 음성을 병합함으로써 최종 합성된 음성을 출력한다.Thereafter, the synthesis unit sounds are connected and flattened to generate a synthesized sound (S39). That is, the optimum candidates of the voices corresponding to the input sentences are extracted from the personal voice DB and the basic voice DB, and the voice extracted from the basic voice DB converts the voices extracted from the personal voice and the basic voice similarly to the personal voice. By merging, the final synthesized speech is output.

따라서, 본 발명은 문장을 음성으로 출력하기 위해 개인 음성DB를 기준으로 문장에 대한 최적 후보를 추출하고, 개인 음성DB에 최적 후보가 존재하지 않으면 기본 음성DB에서 최적 후보를 추출한 후 수치화된 개인 음성DB의 개인운율정보와 유사하게 음색변환하여 음성을 합성하는 것이다.Accordingly, the present invention extracts the best candidate for a sentence based on a personal voice DB to output a sentence as a voice, and if the best candidate does not exist in the personal voice DB, extracts the best candidate from the basic voice DB and then digitizes the personal voice. Similar to the personal rhyme information of DB, it is to synthesize voice by converting timbre.

즉, 음성을 합성하기 위한 최적 음성 후보를 개인 음성DB에서 추출하고, 개인 음성DB에 존재하지 않는 음성후보는 기본 음성DB에서 추출하여 개인 음성과 유 사하게 음색을 변환하고, 상기 개인 음성DB와 기본 음성DB의 최적 후보인 합성 단위음을 연결하여 합성음을 생성하고 출력함으로써 사용자는 자신이 녹음한 개인 목소리로 음성이 출력된다고 느끼게 할 수 있다.That is, the optimal voice candidate for synthesizing the voice is extracted from the personal voice DB, and the voice candidate not present in the personal voice DB is extracted from the basic voice DB, and the tone is converted similarly to the personal voice. By synthesizing and outputting the synthesized sound by connecting the synthesized unit sounds which are the best candidates of the basic voice DB, the user can feel that the voice is output by the personal voice recorded by the user.

또한 본 발명에서 제안하는 방법은 음성합성이 가능한 다양한 기기에 적용할 수 있다. In addition, the method proposed in the present invention can be applied to various devices capable of speech synthesis.

이제까지 본 발명에 대하여 그 실시 예를 중심으로 살펴보았으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 본질적 기술 범위 내에서 상기 본 발명의 상세한 설명과 다른 형태의 실시 예들을 구현할 수 있을 것이다. 여기서 본 발명의 본질적 기술범위는 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far, the present invention has been described with reference to the embodiments, and those skilled in the art to which the present invention pertains may implement embodiments of the present invention in a different form from the detailed description of the present invention within the essential technical scope of the present invention. Could be. Here, the essential technical scope of the present invention is shown in the claims, and all differences within the equivalent range will be construed as being included in the present invention.

본 발명에 따른 개인 음성을 합성하여 출력하는 방법에 의하면, 음성합성에 사용할 개인 음성DB를 등록하고, 상기 등록된 개인 음성DB를 기준으로 합성 단위음을 개인 음성DB와 기본 음성DB에서 추출하고, 상기 기본 음성DB에서 추출된 합성 단위음은 개인 음성 특징과 유사하게 음색변환하여 합성음을 생성함으로써 사용자가 녹음한 음성으로 느끼게끔 음성을 출력할 수 있는 효과가 있다. According to the method for synthesizing and outputting a personal voice according to the present invention, a personal voice DB to be used for voice synthesis is registered, and a synthesis unit sound is extracted from the personal voice DB and the basic voice DB based on the registered personal voice DB, The synthesized unit sound extracted from the basic voice DB has an effect of outputting a voice to make the user feel the recorded voice by generating a synthesized sound by converting a tone similarly to a personal voice feature.

또한, 본 발명은 개인 음성의 특징을 추출할 수 있는 소정의 개인 음성DB를 등록하고, 음성합성을 위해 메모리에 기본적으로 저장되어 있는 기본 음성DB와의 병합을 통해 합성된 음성을 출력함으로써 메모리 용량에 큰 부담을 주지 않으면서 원하는 개인음성을 출력할 수 있는 효과가 있다.In addition, the present invention registers a predetermined personal voice DB that can extract the features of the personal voice, and outputs the synthesized voice by merging with the basic voice DB basically stored in the memory for voice synthesis. There is an effect that can output the desired personal voice without a great burden.

또한, 본 발명은 음성합성이 가능한 다양한 기기에 적용할 수 있는 효과가 있다. In addition, the present invention has an effect that can be applied to various devices capable of speech synthesis.

Claims (5)

음성을 수집하여 개인음성 데이터베이스를 구축하는 단계;Collecting a voice to construct a personal voice database; 상기 개인음성 데이터베이스를 이용하여 개인음성의 특징정보를 추출하고 상기 추출된 특징정보를 이미 저장되어 있는 기본음성 데이터베이스의 음성정보에 적용하는 단계;Extracting feature information of the personal voice using the personal voice database and applying the extracted feature information to voice information of a basic voice database that is already stored; 문장을 입력받고 해당하는 음성을 상기 개인음성 데이터베이스와 기본음성 데이터베이스에서 추출하는 단계;Receiving a sentence and extracting a corresponding voice from the personal voice database and the basic voice database; 상기 기본음성 데이터베이스에서 추출된 음성은 상기 적용되어 있는 개인음성의 특징정보를 이용하여 음색변환하는 단계;Converting a voice extracted from the basic voice database by using feature information of the applied personal voice; 상기 개인음성 데이터베이스에서 추출된 음성와 상기 기본음성 데이터베이스에서 추출되어 음색변환된 음성을 합성하여 음성의 합성음을 생성하고 출력하는 단계;를 포함하는 것을 특징으로 하는 개인 음성을 합성하여 출력하는 방법.And synthesizing and outputting the synthesized voice of the voice by synthesizing the voice extracted from the personal voice database and the voice converted from the basic voice database and converted into a tone. 제 1항에 있어서,The method of claim 1, 상기 개인 음성의 수집을 위해, 문장 단위의 스크립트를 제시하고 상기 스크립트를 읽는 음성을 녹음하여 음성을 수집하는 단계를 더 포함하는 것을 특징으로 하는 개인 음성을 합성하여 출력하는 방법.And collecting a voice by presenting a script in a sentence unit and recording a voice reading the script to collect the voice. 제 1항에 있어서, 상기 개인음성 데이터베이스의 구축은, 수집된 개인 음성 을 억양구를 이용하여 이중음소열로 분리하여 군집화하는 단계;The method of claim 1, wherein the construction of the personal voice database comprises the steps of: separating and grouping the collected individual voices into a double phoneme sequence using an accent; 각각의 군집별로 피치와 지속시간을 추출하여 유효성을 검증하는 단계;Verifying validity by extracting pitch and duration for each cluster; 상기 검증된 음성의 켑스트럼 정보를 추출하고 상기 추출된 피치, 지속시간, 켑스트럼 정보 중 어느 하나 이상의 정보를 수치로 테이블화하여 저장하는 단계;를 더 포함하는 것을 특징으로 하는 개인 음성을 합성하여 출력하는 방법.Extracting the cepstrum information of the verified voice and extracting any one or more pieces of information of the extracted pitch, duration, and cepstrum information. And storing the table by numerical values. 제 1항에 있어서,The method of claim 1, 상기 개인음성 특징정보는 피치, 지속시간, 켑스트럼 중 어느 하나 이상을 포함하는 정보인 것을 특징으로 하는 개인 음성을 합성하여 출력하는 방법.And the personal voice characteristic information is information including at least one of pitch, duration, and cepstrum. 제 1항에 있어서, 상기 문장을 입력받고 해당하는 음성을 추출하는 것은,The method of claim 1, wherein the inputting the sentence and extracting a corresponding voice comprises: 상기 입력된 문장을 전처리하고 이중음소열의 조합으로 변환하는 단계; Preprocessing the input sentence and converting the input sentence into a combination of a double phoneme string; 상기 이중음소열의 문장열 정보를 통해 예측된 목표 피치와 지속시간을 이용하여 운율을 추정하고, 비터비 서치를 이용하여 입력된 문장에 해당하는 음성을 데이터베이스에서 선택하는 단계;를 더 포함하는 것을 특징으로 하는 개인 음성을 합성하여 출력하는 방법.Estimating a rhyme using a target pitch and duration predicted through the sentence information of the double phoneme string, and selecting a voice corresponding to the input sentence using a Viterbi search from a database; A method of synthesizing and outputting a personal voice.
KR1020060135538A 2006-12-27 2006-12-27 Method for outputting synthesis to individual voice KR20080060911A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060135538A KR20080060911A (en) 2006-12-27 2006-12-27 Method for outputting synthesis to individual voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060135538A KR20080060911A (en) 2006-12-27 2006-12-27 Method for outputting synthesis to individual voice

Publications (1)

Publication Number Publication Date
KR20080060911A true KR20080060911A (en) 2008-07-02

Family

ID=39813386

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060135538A KR20080060911A (en) 2006-12-27 2006-12-27 Method for outputting synthesis to individual voice

Country Status (1)

Country Link
KR (1) KR20080060911A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220050342A (en) * 2020-10-16 2022-04-25 (주)디테일컴 Apparatus, terminal and method for providing speech synthesizer service

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220050342A (en) * 2020-10-16 2022-04-25 (주)디테일컴 Apparatus, terminal and method for providing speech synthesizer service

Similar Documents

Publication Publication Date Title
CN111566655B (en) Multi-language text-to-speech synthesis method
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
US6505158B1 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US6792407B2 (en) Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems
KR100811568B1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
EP1168299B1 (en) Method and system for preselection of suitable units for concatenative speech
US20060229877A1 (en) Memory usage in a text-to-speech system
WO2005034082A1 (en) Method for synthesizing speech
WO2004066271A1 (en) Speech synthesizing apparatus, speech synthesizing method, and speech synthesizing system
US6212501B1 (en) Speech synthesis apparatus and method
CN101312038B (en) Method for synthesizing voice
Bettayeb et al. Speech synthesis system for the holy quran recitation.
JP2007086309A (en) Voice synthesizer, voice synthesizing method, and program
JP3050832B2 (en) Speech synthesizer with spontaneous speech waveform signal connection
CN115762471A (en) Voice synthesis method, device, equipment and storage medium
GB2313530A (en) Speech Synthesizer
JP2975586B2 (en) Speech synthesis system
KR20080060911A (en) Method for outputting synthesis to individual voice
Hwang et al. A Mandarin text-to-speech system
JP2000056789A (en) Speech synthesis device and telephone set
JP3655808B2 (en) Speech synthesis apparatus, speech synthesis method, portable terminal device, and program recording medium
Keletay et al. Developing concatenative based text to speech synthesizer for Tigrigna language
JP3626398B2 (en) Text-to-speech synthesizer, text-to-speech synthesis method, and recording medium recording the method
JP2009271190A (en) Speech element dictionary creation device and speech synthesizer

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination