KR20170103209A

KR20170103209A - 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법

Info

Publication number: KR20170103209A
Application number: KR1020160025685A
Authority: KR
Inventors: 윤승; 김기현; 김상훈; 김윤영; 김정세; 이민규; 이수종; 이영직; 최무열
Original assignee: 한국전자통신연구원
Priority date: 2016-03-03
Filing date: 2016-03-03
Publication date: 2017-09-13
Also published as: US20170255616A1; US10108606B2; KR102525209B1

Abstract

본 발명은 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법에 관한 것으로서, 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템은 원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 적어도 하나의 특성 정보를 추출하는 음성 인식 모듈, 상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 자동 번역 모듈, 및 상기 합성 대상 번역문에 대한 합성음을 생성하는 음성 합성 모듈을 포함한다.

Description

원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법{Simultaneous interpretation system for generating a synthesized voice similar to the native talker's voice and method thereof}

본 발명은 자동 통역 기술에 관한 것으로, 특히 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법에 관한 것이다.

기존 자동통역기에서는 상대방에게 전달되는 음성 합성음에 대한 특별한 고려가 없이 번역된 문장만을 이용하여 중립된 합성음으로 생성하는 것이 일반적이었다. 이보다 진보된 기술에서도, 원시 발화자의 성별을 이용해 남녀 목소리를 구분해 합성하는 정도만을 제안하고 있다.

자동 통역이 아닌 음성 합성 기술만을 고려할 때도, 감정을 표현하고자 하는 시도는 존재하였으나, 이는 주어진 텍스트 문장에 의존해서 행복, 슬픔, 분노 등의 몇 가지 감정을 표현할 수 있도록 합성하는 것에 지나지 않았다.

경우에 따라서, 로봇 등과 같은 대화 시스템에 있어서 대화 상대방 인간의 개인 운율 모델 정보를 이용해 분노, 두려움, 행복, 슬픔 등과 같은 감정 운율 구조를 분석하고 이를 이용해 로봇 측에서 발화하는 합성음에 감정 정보를 가미하고자 하는 시도가 있었다. 그러나, 이는 대화 상대방의 음성 특성을 이용하는 것으로, 발화자 본인의 음성이 번역되어 합성되는 자동통역에서와는 다른 방향의 접근이다. 또한, 상대방의 기본 감정을 정의하고 이를 이용해 감정 정보를 부여하기 때문에, 원시 발화자의 음성 특징을 그대로 모사하여 번역, 합성함으로써, 원시 발화자의 발화 의도와 감정을 동일하게 통역 상대방에게 전달하고자 하는 자동통역 상황에는 적합하지 않다.

한편, 국제표준화기구인 ISO/IEC JTC1 SC35 User Interface의 WG4 Culture and Linguistic Adaptability에서는 2015년 1월 회의에서 다국어 자동통역의 사용자인터페이스를 회원국의 투표를 거쳐 새로운 NP(New Project)로 선정하였다.

본 발명의 목적은 원시 발화자의 목소리와 유사한 특성을 갖는 번역된 합성음을 생성하는 자동 통역 시스템 및 방법을 제공함에 있다.

전술한 과제를 달성하기 위한 본 발명의 일 양상에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템은 원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 적어도 하나의 특성 정보를 추출하는 음성 인식 모듈, 상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 자동 번역 모듈, 및 상기 합성 대상 번역문에 대한 합성음을 생성하는 음성 합성 모듈을 포함한다.

상기 음성 인식 모듈은 아날로그 형태의 상기 원시 음성 신호로부터 단어 및 문장을 추출하여 디지털 형태의 텍스트 데이터로 변환하는 단어 및 문장 추출부, 상기 원시 음성 신호에서 음높이 및 음높이 궤적을 추출하는 음높이 추출부, 상기 원시 음성 신호에서 발성 강도를 추출하는 발성 강도 추출부, 상기 원시 음성 신호에서 발화 속도를 측정하여 추출하는 발화 속도 추출부, 및 상기 원시 음성 신호에서 성도 특징 파라미터를 추출하는 성도 특징 추출부를 포함한다.

상기 음높이 추출부는 상기 원시 음성 신호에서 억양구(Intonation Phrase)별 운율 구조를 더 추출한다.

상기 발성 강도 추출부는 추출된 상기 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교하고, 상기 비교 결과를 기반으로 평균 발성 강도 대비 상기 원시 발화자의 발성 강도에 대한 상대 값을 저장한다.

상기 발화 속도 추출부는 상기 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 중 적어도 하나의 단위별로 측정하며, 측정된 상기 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 획득되는 해당 단위별 음절 수 기반의 평균 발화 속도를 비교하며, 상기 비교 결과를 기반으로 평균 발화 속도 대비 상기 원시 발화자의 발화 속도에 대한 상대값을 저장한다.

상기 성도 특징 추출부는 MFCC(Mel-Frequency Cepstral Coefficient)와 성대파(Glottal Wave)의 특징 파라미터 중 적어도 하나의 특징 파라미터를 추출한다.

상기 자동 번역 모듈은 규칙 기반의 자동번역기(Rule-Based Machine Translator)인 경우, 번역 과정에서 상기 원시 음성에 대한 언어와 상기 번역 결과에 대한 언어에 대응하는 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출한다.

상기 자동 번역 모듈은 통계 기반의 자동번역기(Statistical Machine Translator)인 경우, 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위의 청킹(Chunking) 결과를 이용하여, 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출한다.

상기 음성 합성 모듈은 상기 합성 대상 번역문에서의 숫자 및 기호를 문자로 변환하는 전처리부, 변환된 상기 합성 대상 번역문의 문자에 대한 발음을 변환하는 발음 변환부, 상기 합성 대상 번역문에서의 억양구 및 문장에 상기 원시 발화자의 특성 정보를 기반으로 억양 및 강도를 부가하는 운율 처리부, 및 운율 처리된 상기 합성 대상 번역문의 합성 단위들을 검색하고, 상기 검색 결과를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 합성음 생성부를 포함한다.

상기 운율 처리부는 상기 원시 음성 신호에 대한 음높이 정보, 발성 강도 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 운율을 부여한다.

상기 합성음 생성부는 상기 원시 음성 신호에 대한 발화 속도 정보 및 성도 특징 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성한다.

한편, 전술한 과제를 달성하기 위한 본 발명의 다른 양상에 따른 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법은 원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성 신호에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 적어도 하나의 특성 정보를 추출하는 단계, 상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 단계, 및 상기 합성 대상 번역문에 대한 합성음을 생성하는 단계를 포함한다.

상기 특성 정보를 추출하는 단계는 상기 원시 음성 신호에서 억양구(Intonation Phrase)별 운율 구조를 더 추출한다.

상기 특성 정보를 추출하는 단계는 추출된 상기 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교하고, 상기 비교 결과를 기반으로 평균 발성 강도 대비 상기 원시 발화자의 발성 강도에 대한 상대 값을 저장한다.

상기 특성 정보를 추출하는 단계는 상기 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 중 적어도 하나의 단위별로 측정하며, 측정된 상기 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 획득되는 해당 단위별 음절 수 기반의 평균 발화 속도를 비교하며, 상기 비교 결과를 기반으로 평균 발화 속도 대비 상기 원시 발화자의 발화 속도에 대한 상대값을 저장한다.

상기 특성 정보를 추출하는 단계는 MFCC(Mel-Frequency Cepstral Coefficient)와 성대파(Glottal Wave)의 특징 파라미터 중 적어도 하나의 특징 파라미터를 추출한다.

상기 합성 대상 번역문을 생성하는 단계는 규칙 기반의 자동번역기(Rule-Based Machine Translator)인 경우, 번역 과정에서 상기 원시 음성에 대한 언어와 상기 번역 결과에 대한 언어에 대응하는 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출하며, 통계 기반의 자동번역기(Statistical Machine Translator)인 경우, 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위의 청킹(Chunking) 결과를 이용하여, 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출한다.

상기 합성음을 생성하는 단계는 상기 합성 대상 번역문에서의 숫자 및 기호를 문자로 변환하는 단계, 변환된 상기 합성 대상 번역문의 문자에 대한 발음을 변환하는 단계, 상기 합성 대상 번역문에서의 억양구 및 문장에 상기 원시 발화자의 특성 정보를 기반으로 억양 및 강도를 부가하여 운율을 처리하는 단계, 및 운율 처리된 상기 합성 대상 번역문의 합성 단위들을 검색하고, 상기 검색 결과를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 단계를 포함한다.

상기 운율을 처리하는 단계는 상기 원시 음성 신호에 대한 음높이 정보, 발성 강도 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 운율을 부여한다.

상기 검색 결과를 기반으로 합성음을 생성하는 단계는 상기 원시 음성 신호에 대한 발화 속도 정보 및 성도 특징 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성한다.

본 발명의 실시예에 따르면, 자동통역 상황에서 사용자의 발화 의도 및 감정과 유사한 특성을 지니는 번역된 합성음을 상대방에게 전달함으로써, 기계와 대화하는 것 같은 느낌을 주는 현재의 자동 통역기보다 자연성을 대폭 개선할 수 있으며, 또한 외국인과의 대화 과정에서 더욱 자연스럽게 상대방의 말을 이해할 수 있어 자동통역 성능 개선 효과 또한 동시에 얻을 수 있다.

또한, 본 발명의 실시예에 따르면, 각 대화 상대방의 음성 특징이 그대로 전달되므로, 여러명이 동시에 발화하는 다자간 자동 통역 상황에서 현재 말하고 있는 사람이 누구인지를 분명히 구분할 수 있는 효과가 있다.

아울러, 본 발명의 실시예에 따르면, 원시 발화자의 목소리 특성을 그대로 번역된 합성음에 실어 전달함으로써, 궁극적으로는 자동통역기계를 이용해 대화하는 것이 아니라 사람과 자연스럽게 직접 대화하는 것과 같은 형상을 실현할 수 있다.

도 1은 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 구성도.
도 2는 본 발명의 실시예에 따른 자동 통역 시스템의 음성 인식 모듈의 상세 구성도.
도 3은 본 발명의 실시예에 따른 자동 통역 시스템의 음성 합성 모듈의 상세 구성도.
도 4는 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 방법 흐름도.
도 5는 본 발명의 실시예에 따른 원시 음성의 특성 정보를 추출하는 방법 흐름도.
도 6은 본 발명의 실시예에 따른 원시 음성의 특성을 갖는 합성음을 생성 및 변환하는 방법 흐름도.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 기재에 의해 정의된다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자 이외의 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가급적 동일한 부호를 부여하고, 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있는 경우에는 그 상세한 설명은 생략한다.

도 1은 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 구성도이다.

도 1에 도시된 바와 같이, 자동 통역 시스템(100)은 음성 인식 모듈(110), 자동 번역 모듈(120) 및 음성 합성 모듈(130)을 포함한다. 아울러, 각 모듈(음성 인식 모듈(110), 자동 번역 모듈(120) 및 음성 합성 모듈(130))에서 추출되는 정보 및 동작을 위해 이용되는 정보는 별도의 데이터베이스(140)에 저장될 수 있다.

음성 인식 모듈(110)은 화자(원시 발화자)가 발화하는 원시 음성에 대한 원시 음성 신호를 수신하고, 수신되는 원시 음성 신호 에서 원시 음성의 특성 정보를 추출한다. 음성 인식 모듈(110)은 원시 발화자의 음성 입력이 완료되면, 통상적인 음성 인식 수행 절차를 거쳐 인식된 단어와 문장을 추출하는 동시에 추가 정보들을 추출한다. 여기서, 추가 정보들은 음높이(Pitch) 정보, 강도(Intensity) 정보, 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보일 수 있다.

이를 위해, 음성 인식 모듈(110)은 도 2에 도시된 바와 같이 단어 및 문장 추출부(111), 음높이 추출부(112), 발성 강도 추출부(113), 발화 속도 추출부(114) 및 성도 특징 추출부(115)를 포함한다. 아울러, 음성 인식 모듈(110)의 각 추출부(111~115)에서 추출된 정보는 별도의 음성 특징 데이터베이스(141)에 저장될 수 있다.

단어 및 문장 추출부(111)는 마이크를 통해 수신되는 원시 발화자의 원시 음성 신호를 디코딩하여 텍스트 데이터를 생성한다. 이때, 단어 및 문장 추출부(111)는 음성 인식(Speech Recognizer)을 통해 아날로그 형태의 원시 음성 신호를 디지털 형태의 텍스트 데이터로 변환할 수 있다. 또한, 단어 및 문장 추출부(111)는 디코딩(음성 인식) 결과에 대한 정확도 및 신뢰도를 계산한다.

아울러, 단어 및 문장 추출부(111)는 원시 음성 신호에서 문장의 끝을 파악한다. 이때, 단어 및 문장 추출부(111)는 EPD(End-Point Detector)를 통해 원시 음성 신호를 분석하여 문장의 맨 앞과 맨 뒤를 파악할 수 있다. 나아가, 단어 및 문장 추출부(111)는 텍스트 데이터 및 신뢰도 정보와, EPD 정보를 이용하여 텍스트 데이터에서의 의미단위 및 문장의 끝을 판별한다.

이와 같은 과정을 통해, 단어 및 문장 추출부(111)는 원시 음성 신호로부터 단어 및 문장(음성 인식 결과)을 추출할 수 있다. 이하에서는, 설명의 편의를 위해 원시 발화자가 하나의 문장을 발화하여, 원시 음성 신호로부터 하나의 문장을 추출한 것으로 가정하여 설명한다.

음높이 추출부(112)는 음높이 정보를 문장 레벨에서 측정하여 저장한다. 구체적으로, 음높이 추출부(112)는 원시 음성 신호에서 음높이 정보 및 음높이 궤적 정보를 추출할 수 있다.

이때, 음높이 추출부(112)는 단어 및 문장 추출부(111)의 음성 인식 결과와 원시 음성 신호의 음높이(Pitch) 및 음높이 궤적 정보를 동시에 이용해 억양구(Intonation Phrase) 단위 정보도 함께 추출한다. 아울러, 음높이 추출부(112)는 추출된 억양구에 대해서도 추가적으로 음높이 궤적 정보를 이용하여 L%, LH%, HL%, LH% LHL%, LHLH%, HLH%, HLHL%, LHLHL%(L: Low, H: High, %: 경계 성조(boundary tones)) 등과 같이 해당 발화의 억양구별 운율 구조를 추출 및 저장한다. 이때, 저장되는 운율 구조의 형태는 언어별로 달라질 수 있다.

발성 강도 추출부(113)는 원시 음성 신호에서의 발성 강도를 단어, 문장, 억양구 등 각 단위별로 측정한다. 구체적으로, 발성 강도 추출부(113)는 실제 원시 발화자가 발성한 음성의 발성 강도를 각 단위별로 측정한다. 발성 강도 추출부(113)는 측정된 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교한다. 비교 결과를 기반으로 발성 강도 추출부(113)는 평균 발성 강도 대비 실제로 원시 발화자가 발성한 원시 음성의 발성 강도에 대한 상대 값을 저장한다.

발화 속도 추출부(114)는 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 등 각 단위별로 측정한다. 구체적으로, 발화 속도 추출부(114)는 원시 발화자가 발성한 원시 음성의 발화 속도를 단위별로 측정한다. 발화 속도 추출부(114)는 측정된 원시 음성의 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 해당 단위별 음절 수 기반의 평균 속도를 비교한다. 비교 결과를 기반으로 발화 속도 추출부(114)는 평균 속도 대비 실제 발성된 속도에 대한 상대 값을 저장한다.

성도 특징 추출부(115)는 원시 음성 신호에서 MFCC(Mel-Frequency Cepstral Coefficient) 등과 같은 성도 특징 파라미터를 추출하여 저장한다. 필요에 따라서, 성도 특징 추출부(115)는 성대파(Glottal Wave)의 특징 파라미터도 추출하여 저장할 수 있다. 이렇게 추출된 특징 파라미터는 원시 발화자의 음색에 해당하는 정보이다.

자동 번역 모듈(120)은 음성 인식 모듈(110)의 음성 인식 결과를 이용하여 원시 음성을 번역한다. 구체적으로, 자동 번역 모듈(120)은 음성 인식 모듈(110)에 의해 생성된 원시 음성 신호에 대한 텍스트 데이터를 다른 언어로 번역하여 합성 대상 번역문(번역된 텍스트 데이터)을 생성한다. 예컨대, 자동 번역 모듈(120)은 국문의 텍스트 데이터를 번역하여 영문의 텍스트 데이터로 변환할 수 있다.

이때, 자동 번역 모듈(120)은 음성 인식 모듈(110)의 음성 인식 결과(원시 음성의 특성 정보)와 번역 결과의 단위별 대응 정보를 추출 및 저장할 수 있다. 또는, 자동 번역 모듈(120)은 자동 번역 결과와 음성 인식 결과에 대한 후처리를 통해 단위별 대응 정보를 추출 및 저장할 수 있다.

이때, 자동 번역 모듈(120)이 규칙 기반의 자동번역기(Rule-Based Machine Translator)라면, 번역 과정에서 양쪽 언어에 대응하는 단어, 억양구, 문장 정보를 함께 얻을 수 있다. 만약, 자동 번역 모듈(120)이 통계 기반의 자동번역기(Statistical Machine Translator)라면 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위 청킹(Chunking) 등을 실시하고, 이를 원시 문장(원시 음성의 음성 인식 결과)과 번역된 문장에 대응시켜 단어, 억양구의 대응 정보를 추출한다. 최종 번역 결과를 이용하게 되면 문장도 대응이 된다.

이렇게 대응된 단어, 억양구, 문장 정보는 단위별 대응 정보 데이터베이스(142)에 저장되었다가 이후 음성 합성 모듈(130)에서 합성음을 생성 및 변환하는 과정에서 활용될 수 있다.

음성 합성 모듈(130)은 원시 발화자의 목소리와 유사한 특성을 지니도록 번역문에 대한 합성음을 생성하고 변환한다. 이를 위해, 음성 합성 모듈(130)은 도 3에 도시된 바와 같이, 전처리부(131), 발음 변환부(132), 운율 처리부(133), 합성음 생성부(134)를 포함한다.

먼저, 전처리부(131)는 자동 번역 모듈(120)에 의해 번역된 텍스트 데이터(합성 대상 번역문)에서의 숫자, 기호 등을 문자로 변환한다. 예컨대, 전처리부(131)는 합성 대상 번역문에서 '1', '#'과 같은 숫자와 기호를 '일(또는 하나) ', '샵'과 같이 문자로 변환한다.

이후, 발음 변환부(132)에서 합성 대상 번역문의 문자에 대한 발음 변환을 실시한다. 예컨대, 발음 변환부(132)는 문자로 변환된 합성 대상 번역문을 기저장된 발음 기호에 따라 실제로 발음되는 발음 데이터로 변환할 수 있다.

운율 처리부(133)는 합성 대상 번역문에서 억양구를 찾아내어 억양구 및 문장에 억양 및 강도를 부가한다.

먼저, 운율 처리부(133)는 합성음을 원시 발화자와 목소리와 유사한 특성을 지니도록 합성음을 생성하기 위해서, 발음 변환된 합성 대상 번역문의 기본 음높이를 원시 발화자의 음높이와 같게 유지되도록 부여한다. 이때, 운율 처리부(133)는 문장에 억양을 부가 시, 단순히 텍스트 데이터에 의해서만 억양을 부가하는 것이 아니라, 원시 발화 음성의 억양구 개수와 합성 대상 번역문의 억양구 개수를 비교하며, 비교 결과에 따라 운율을 부여한다.

만약, 원시 발화 음성의 억양구 개수와 합성 대상 번역문의 억양구 개수가 1:1로 대응될 때에는 번역문과 대응되는 원시 발화의 억양구 운율 구조와 같은 특성을 지니도록 운율을 부여한다. 예컨대, 영어를 한국어로 자동통역하는 상황에서 'Are you hungry'라고 발성한 음성에 대해 '밥 먹었어요'라는 문장으로 번역되었다고 가정한다. 이 경우, 단순히 텍스트 데이터만을 이용하여 운율을 부여한다면 'L%'로 억양이 부여된다.

하지만, 만약 원시 발화의 억양구 운율이 'LH%'로 측정되었다면, 운율 처리부(133)는 1:1로 억양구의 숫자가 동일한 상황에서는 이 정보를 이용해 대응되는 억양구인 '밥 먹었어요'에 대해서 'LH%'의 운율이 생성될 수 있도록 하는 것이다. 이때 운율 구조 생성에 있어 단순하게 원시 발화와 동일한 운율을 가지는 억양구로 대응되는 것이 아니라, 원시 언어와 통역되는 상대방 목적 언어의 운율 구조를 고려하여 같은 의도를 가지는 자연스러운 억양구 운율 구조로 대응하여 생성될 수 있도록 한다. 이런 과정을 거치게 되면 원시 음성과 유사한 감정과 의도를 가지는 운율로 번역된 합성음을 생성할 수 있다.

다음으로, 운율 처리부(133)는 강도를 부여할 때도 남녀 성별을 기준으로 삼은 다음, 중립적으로 생성되어야 할 강도에 자연성을 해치지 않는 범위 내에서 전체 문장에 원시 발화 음성에서 측정된 것과 동일한 상대 값을 가지도록 강도를 부여한다. 이때, 만약 원시 발화 음성에서 특정 단어 및 억양구에 미리 설정한 기준치 이상 또는 이하의 강도가 측정되었다면, 생성되는 합성음에서도 이에 대응되는 해당 단어 및 억양구에 기준치 대비 같은 상대값을 가지도록 강도를 부여하고 나머지 다른 단어 및 억양구의 강도를 함께 조절하여 전체적으로는 같은 수준의 강도를 가질 수 있게 한다. 이렇게 하면 원시 음성과 유사한 감정과 의도를 가지는 강도로 번역된 합성음을 생성할 수 있다.

이후, 합성음 생성부(134)는 운율 처리된 합성 대상 번역문(입력 문장)의 합성 단위들을 합성단위 데이터베이스(143)로부터 검색하고, 검색 결과를 이용하여 합성단위들을 연결하여 합성음을 생성하고 출력하게 된다. 통상의 경우라면 중립적으로 생성될 발화 속도를 자연성을 해치지 않는 범위 내에서 전체 문장에 대해 원시 발화 음성과 동일한 상대 값을 가지도록 조절한다. 이때, 만약 미리 설정한 기준치 이하 또는 이상의 발화 속도 변화가 원시 발화 음성의 특정 단어 및 억양구에서 발견되었다면, 합성음 생성부(134)는 이에 대응하는 합성음의 해당 단어 및 억양구를 원시 발화의 속도에 따라 느리게 또는 빠르게 바꾸는 동시에 나머지 단어 및 억양구의 속도도 상대적으로 조절하여 전체 속도는 동일한 상대값을 가지도록 유지시켜 준다. 이를 통해 원시 음성과 유사한 감정과 의도를 가진 번역된 합성음을 생성할 수 있도록 속도를 조절할 수 있다.

마지막으로는 합성음 생성부(134)는 음색 정보 특징 파라미터가 원시 발화자의 음색 정보 특징 파라미터와 유사한 값을 가질 수 있도록 자연성을 해치지 않는 범위 내에서 시간축 또는 주파수 축에서 음색변환을 실시한다. 이렇게 변환을 실시하면 최종 합성음의 음색이 원시 발화자의 음색과 유사해지게 되어, 원시 음성과 유사한 감정과 의도를 가진 번역된 합성음을 생성할 수 있다.

이와 같이, 본 발명의 실시예에 따르면 자동통역 상황에서 사용자의 발화 의도 및 감정과 유사한 특성을 지니는 번역된 합성음을 상대방에게 전달함으로써, 기계와 대화하는 것 같은 느낌을 주는 현재의 자동 통역기보다 자연성을 대폭 개선할 수 있으며, 또한 외국인과의 대화 과정에서 더욱 자연스럽게 상대방의 말을 이해할 수 있어 자동통역 성능 개선 효과 또한 동시에 얻을 수 있다.

도 4는 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 방법 흐름도이다.

이하에서는 별도의 언급이 없는 한, 각 단계는 본 발명의 실시예에 다른 자동 통역 시스템(100)에 의해 수행되는 것으로 간주한다.

먼저, 자동 통역 시스템(100)은 화자(원시 발화자)가 발화하는 원시 음성에 대한 음성 데이터를 수신하고, 수신되는 음성 데이터에서 원시 음성의 특성 정보를 추출한다. 구체적으로, 자동 통역 시스템(100)은 원시 발화자의 음성 입력이 완료되면, 통상적인 음성 인식 수행 절차를 거쳐 인식된 단어와 문장을 추출하는 동시에 추가 정보들을 추출한다. 여기서, 추가 정보들은 음높이(Pitch) 정보, 강도(Intensity) 정보, 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보일 수 있다.

먼저, 자동 통역 시스템(100)은 마이크를 통해 수신되는 원시 발화자의 음성 신호(원시 음성 신호)를 디코딩하여 텍스트 데이터를 생성한다. 이때, 자동 통역 시스템(100)은 음성 인식(Speech Recognizer)을 통해 아날로그 형태의 원시 음성 신호를 디지털 형태의 텍스트 데이터로 변환할 수 있다. 또한, 자동 통역 시스템(100)은 디코딩(음성 인식) 결과에 대한 정확도 및 신뢰도를 계산한다.

아울러, 자동 통역 시스템(100)은 원시 음성 신호에서 문장의 끝을 파악한다. 이때, 자동 통역 시스템(100)은 EPD(End-Point Detector)를 통해 원시 음성 신호를 분석하여 문장의 맨 앞과 맨 뒤를 파악할 수 있다. 나아가, 자동 통역 시스템(100)은 텍스트 데이터 및 신뢰도 정보와, EPD 정보를 이용하여 텍스트 데이터에서의 의미단위 및 문장의 끝을 판별한다.

이와 같은 과정을 통해, 자동 통역 시스템(100)은 원시 음성 신호로부터 단어 및 문장(음성 인식 결과)을 추출할 수 있다. 이하에서는, 설명의 편의를 위해 원시 발화자가 하나의 문장을 발화하여, 원시 음성 신호로부터 하나의 문장을 추출한 것으로 가정하여 설명한다.

아울러, 자동 통역 시스템(100)은 도 5와 같은 동작 흐름을 통해 원시 음성의 특성 정보를 추출할 수 있다.

도 5는 본 발명의 실시예에 따른 원시 음성의 특성 정보를 추출하는 방법 흐름도이다

자동 통역 시스템(100)은 원시 음성 신호의 문장 레벨에서 음높이 정보 및 음높이 궤적 정보를 추출한다(S501).

또한, 자동 통역 시스템(100)은 음성 인식 결과와 원시 음성 신호의 음높이(Pitch) 및 음높이 궤적 정보를 동시에 이용해 억양구(Intonation Phrase) 단위 정보도 함께 추출한다(S502).

아울러, 자동 통역 시스템(100)은 추출된 억양구에 대해서 억양구 운율 구조 정보를 추출한다(S503). 예컨대, 자동 통역 시스템(100)은 추출된 억양구에 대해서도 추가적으로 음높이 궤적 정보를 이용하여 L%, LH%, HL%, LH% LHL%, LHLH%, HLH%, HLHL%, LHLHL%(L: Low, H: High, %: 경계 성조(boundary tones)) 등과 같이 해당 발화의 억양구별 운율 구조를 추출 및 저장한다. 이때, 저장되는 운율 구조의 형태는 언어별로 달라질 수 있다.

자동 통역 시스템(100)은 원시 음성 신호에서의 발성 강도를 단어, 문장, 억양구 등 각 단위별로 측정한다(S504). 구체적으로, 자동 통역 시스템(100)은 실제 원시 발화자가 발성한 음성의 발성 강도를 각 단위별로 측정한다.

또한, 자동 통역 시스템(100)은 측정된 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교한다(S505).

자동 통역 시스템(100)은 단계 S505의 비교 결과를 기반으로 평균 발성 강도 대비 실제로 원시 발화자가 발성한 원시 음성의 발성 강도에 대한 상대 값을 추출하여 저장한다(S506).

자동 통역 시스템(100)은 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 등 각 단위별로 측정한다(S507). 구체적으로, 자동 통역 시스템(100)은 원시 발화자가 발성한 원시 음성의 발화 속도를 단위별로 측정한다.

또한, 자동 통역 시스템(100)은 측정된 원시 음성의 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 해당 단위별 음절 수 기반의 평균 속도를 비교한다(S508).

자동 통역 시스템(100)은 단계 S508의 비교 결과를 기반으로 평균 속도 대비 실제 발성된 속도에 대한 상대 값을 추출하여 저장한다(S509).

자동 통역 시스템(100)은 원시 음성 신호에서 MFCC(Mel-Frequency Cepstral Coefficient) 등과 같은 성도 특징 파라미터를 추출하여 저장한다(S510). 필요에 따라서, 자동 통역 시스템(100)은 성대파(Glottal Wave)의 특징 파라미터도 추출하여 저장할 수 있다. 이렇게 추출된 특징 파라미터는 원시 발화자의 음색에 해당하는 정보이다.

다시 도 4의 동작 흐름도로 돌아가서, 자동 통역 시스템(100)은 단계 S401의 음성 인식 결과를 이용하여 원시 음성을 번역한다(S402). 구체적으로, 자동 통역 시스템(100)은 단계 S402에서 생성된 원시 음성 신호에 대한 텍스트 데이터를 다른 언어로 번역한다. 예컨대, 국문의 텍스트 데이터를 번역하여 영문의 텍스트 데이터로 변환할 수 있다.

이때, 자동 통역 시스템(100)은 음성 인식 결과(원시 음성의 특성 정보)와 번역 결과의 단위별 대응 정보를 추출 및 저장할 수 있다. 또는, 자동 통역 시스템(100)은 자동 번역 결과와 음성 인식 결과에 대한 후처리를 통해 단위별 대응 정보를 추출 및 저장할 수 있다.

이때, 자동 통역 시스템(100)이 규칙 기반의 자동번역기(Rule-Based Machine Translator)라면, 번역 과정에서 양쪽 언어에 대응하는 단어, 억양구, 문장 정보를 함께 얻을 수 있다. 만약, 자동 통역 시스템(100)이 통계 기반의 자동번역기(Statistical Machine Translator)라면 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위 청킹(Chunking) 등을 실시하고, 이를 원시 문장(원시 음성의 음성 인식 결과)과 번역된 문장에 대응시켜 단어, 억양구의 대응 정보를 추출한다. 최종 번역 결과를 이용하게 되면 문장도 대응이 된다.

이렇게 대응된 단어, 억양구, 문장 정보는 단위별 대응 정보 데이터베이스(142)에 저장되었다가 이후 합성음을 생성 및 변환하는 과정에서 활용될 수 있다.

자동 통역 시스템(100)은 원시 발화자의 목소리와 유사한 특성을 지니도록 번역문에 대한 합성음을 생성하고 변환한다(S403).

이때, 자동 통역 시스템(100)은 도 6과 같은 동작 흐름을 통해 합성음을 생성 및 변환할 수 있다.

도 6은 본 발명의 실시예에 따른 원시 음성의 특성을 갖는 합성음을 생성 및 변환하는 방법 흐름도이다

먼저, 자동 통역 시스템(100)은 단계 S402에서 번역된 텍스트 데이터(합성 대상 번역문)를 전처리한다(S601). 구체적으로, 자동 통역 시스템(100)은 합성 대상 번역문에서의 숫자, 기호 등을 문자로 변환한다. 예컨대, 자동 통역 시스템(100)은 합성 대상 번역문에서 '1', '#'과 같은 숫자와 기호를 '일(또는 하나) ', '샵'과 같이 문자로 변환한다.

이후, 자동 통역 시스템(100)은 합성 대상 번역문의 문자에 대한 발음 변환을 실시한다(S602). 예컨대, 자동 통역 시스템(100)은 문자로 변환된 합성 대상 번역문을 기저장된 발음 기호에 따라 실제로 발음되는 발음 데이터로 변환할 수 있다.

자동 통역 시스템(100)은 합성음을 원시 발화자와 목소리와 유사한 특성을 지니도록 합성음을 생성하기 위해서, 발음 변환된 합성 대상 번역문의 기본 음높이를 원시 발화자의 음높이와 같게 유지되도록 부여한다(S603). 이때, 자동 통역 시스템(100)은 문장에 억양을 부가 시, 단순히 텍스트 데이터에 의해서만 억양을 부가하는 것이 아니라, 원시 발화 음성의 억양구 개수와 합성 대상 번역문의 억양구 개수를 비교하며(S604), 비교 결과에 따라 운율을 부여한다.

만약, 원시 발화 음성의 억양구 개수와 합성 대상 번역문의 억양구 개수가 1:1로 대응될 때에는, 역문과 대응되는 원시 발화의 억양구 운율 구조와 같은 특성을 지니도록 운율을 부여한다(S605). 예컨대, 영어를 한국어로 자동통역하는 상황에서 'Are you hungry'라고 발성한 음성에 대해 '밥 먹었어요'라는 문장으로 번역되었다고 가정한다. 이 경우, 단순히 텍스트 데이터만을 이용하여 운율을 부여한다면 'L%'로 억양이 부여된다. 하지만, 만약 원시 발화의 억양구 운율이 'LH%'로 측정되었다면, 1:1로 억양구의 숫자가 동일한 상황에서는 이 정보를 이용해 대응되는 억양구인 '밥 먹었어요'에 대해서 'LH%'의 운율이 생성될 수 있도록 하는 것이다. 이 때 운율 구조 생성에 있어 단순하게 원시 발화와 동일한 운율을 가지는 억양구로 대응되는 것이 아니라, 원시 언어와 통역되는 상대방 목적 언어의 운율 구조를 고려하여 같은 의도를 가지는 자연스러운 억양구 운율 구조로 대응하여 생성될 수 있도록 한다. 이런 과정을 거치게 되면 원시 음성과 유사한 감정과 의도를 가지는 운율로 번역된 합성음을 생성할 수 있다.

아울러, 자동 통역 시스템(100)은 원시 발화 음성에서 측정된 값과 동일한 상대값을 가지도록 합성음의 강도를 부여한다(S606). 강도를 부여할 때도 자동 통역 시스템(100)은 남녀 성별을 기준으로 삼은 다음, 중립적으로 생성되어야 할 강도에 자연성을 해치지 않는 범위 내에서 전체 문장에 원시 발화 음성에서 측정된 것과 동일한 상대 값을 가지도록 강도를 부여한다. 이때, 만약 원시 발화 음성에서 특정 단어 및 억양구에 미리 설정한 기준치 이상 또는 이하의 강도가 측정되었다면, 생성되는 합성음에서도 이에 대응되는 해당 단어 및 억양구에 기준치 대비 같은 상대값을 가지도록 강도를 부여하고 나머지 다른 단어 및 억양구의 강도를 함께 조절하여 전체적으로는 같은 수준의 강도를 가질 수 있게 한다. 이렇게 하면 원시 음성과 유사한 감정과 의도를 가지는 강도로 번역된 합성음을 생성할 수 있다.

이후, 자동 통역 시스템(100)은 운율 처리된 합성 대상 번역문(입력 문장)의 합성 단위들을 합성단위 데이터베이스(143)로부터 검색하고, 검색 결과를 이용하여 합성단위들을 연결하여 합성음을 생성한다(S607). 이때, 통상의 경우라면 중립적으로 생성될 발화 속도를 자연성을 해치지 않는 범위 내에서 전체 문장에 대해 원시 발화 음성과 동일한 상대 값을 가지도록 조절한다.

예컨대, 자동 통역 시스템(100)은 원시 음성과 동일한 상대값을 가지도록 합성음의 발화 속도를 조절한다(S608). 만약 미리 설정한 기준치 이하 또는 이상의 발화 속도 변화가 원시 발화 음성의 특정 단어 및 억양구에서 발견되었다면, 이에 대응하는 합성음의 해당 단어 및 억양구를 원시 발화의 속도에 따라 느리게 또는 빠르게 바꾸는 동시에 나머지 단어 및 억양구의 속도도 상대적으로 조절하여 전체 속도는 동일한 상대값을 가지도록 유지시켜 준다. 이를 통해 원시 음성과 유사한 감정과 의도를 가진 번역된 합성음을 생성할 수 있도록 속도를 조절할 수 있다.

또한, 자동 통역 시스템(100)은 원시 발화자의 음색과 유사하도록 합성음의 음색을 변환한다(S609). 구체적으로, 자동 통역 시스템(100)은 음색 정보 특징 파라미터가 원시 발화자의 음색 정보 특징 파라미터와 유사한 값을 가질 수 있도록 자연성을 해치지 않는 범위 내에서 시간축 또는 주파수 축에서 음색변환을 실시한다. 이렇게 변환을 실시하면 최종 합성음의 음색이 원시 발화자의 음색과 유사해지게 되어, 원시 음성과 유사한 감정과 의도를 가진 번역된 합성음을 생성할 수 있다.

이후, 자동 통역 시스템(100)은 생성된 합성음을 출력함으로써, 원시 발화자의 특성을 갖는 번역된 합성음을 제공할 수 있다(S610).

이상, 본 발명의 바람직한 실시예를 통하여 본 발명의 구성을 상세히 설명하였으나, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 명세서에 개시된 내용과는 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

110 : 음성 인식 모듈 111 : 단어 및 문장 추출부
112 : 음높이 추출부 123 : 발성 강도 추출부
124 : 발화 속도 추출부 125 : 성도 특징 추출부
120 : 자동 번역 모듈 130 : 음성 합성 모듈
131 : 전처리부 132 : 발음 변환부
133 : 운율 처리부 134 : 합성음 생성부

Claims

원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 적어도 하나의 특성 정보를 추출하는 음성 인식 모듈;
상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 자동 번역 모듈; 및
상기 합성 대상 번역문에 대한 합성음을 생성하는 음성 합성 모듈;
을 포함하는 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
제1항에 있어서, 상기 음성 인식 모듈은,
아날로그 형태의 상기 원시 음성 신호로부터 단어 및 문장을 추출하여 디지털 형태의 텍스트 데이터로 변환하는 단어 및 문장 추출부;
상기 원시 음성 신호에서 음높이 및 음높이 궤적을 추출하는 음높이 추출부;
상기 원시 음성 신호에서 발성 강도를 추출하는 발성 강도 추출부;
상기 원시 음성 신호에서 발화 속도를 측정하여 추출하는 발화 속도 추출부; 및
상기 원시 음성 신호에서 성도 특징 파라미터를 추출하는 성도 특징 추출부;
를 포함하는 것인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
제2항에 있어서, 상기 음높이 추출부는,
상기 원시 음성 신호에서 억양구(Intonation Phrase)별 운율 구조를 더 추출하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
제2항에 있어서, 상기 발성 강도 추출부는,
추출된 상기 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교하고, 상기 비교 결과를 기반으로 평균 발성 강도 대비 상기 원시 발화자의 발성 강도에 대한 상대 값을 저장하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
제2항에 있어서, 상기 발화 속도 추출부는,
상기 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 중 적어도 하나의 단위별로 측정하며, 측정된 상기 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 획득되는 해당 단위별 음절 수 기반의 평균 발화 속도를 비교하며, 상기 비교 결과를 기반으로 평균 발화 속도 대비 상기 원시 발화자의 발화 속도에 대한 상대값을 저장하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
제2항에 있어서, 상기 성도 특징 추출부는,
MFCC(Mel-Frequency Cepstral Coefficient)와 성대파(Glottal Wave)의 특징 파라미터 중 적어도 하나의 특징 파라미터를 추출하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
제1항에 있어서, 상기 자동 번역 모듈은
규칙 기반의 자동번역기(Rule-Based Machine Translator)인 경우, 번역 과정에서 상기 원시 음성에 대한 언어와 상기 번역 결과에 대한 언어에 대응하는 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
제1항에 있어서, 상기 자동 번역 모듈은,
통계 기반의 자동번역기(Statistical Machine Translator)인 경우, 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위의 청킹(Chunking) 결과를 이용하여, 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
제1항에 있어서, 상기 음성 합성 모듈은,
상기 합성 대상 번역문에서의 숫자 및 기호를 문자로 변환하는 전처리부;
변환된 상기 합성 대상 번역문의 문자에 대한 발음을 변환하는 발음 변환부;
상기 합성 대상 번역문에서의 억양구 및 문장에 상기 원시 발화자의 특성 정보를 기반으로 억양 및 강도를 부가하는 운율 처리부; 및
운율 처리된 상기 합성 대상 번역문의 합성 단위들을 검색하고, 상기 검색 결과를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 합성음 생성부;
를 포함하는 것인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
제9항에 있어서, 상기 운율 처리부는,
상기 원시 음성 신호에 대한 음높이 정보, 발성 강도 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 운율을 부여하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
제9항에 있어서, 상기 합성음 생성부는,
상기 원시 음성 신호에 대한 발화 속도 정보 및 성도 특징 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성 신호에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 적어도 하나의 특성 정보를 추출하는 단계;
상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 단계; 및
상기 합성 대상 번역문에 대한 합성음을 생성하는 단계;
를 포함하는 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
제12항에 있어서, 상기 특성 정보를 추출하는 단계는,
상기 원시 음성 신호에서 억양구(Intonation Phrase)별 운율 구조를 더 추출하는 것
인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
제12항에 있어서, 상기 특성 정보를 추출하는 단계는,
추출된 상기 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교하고, 상기 비교 결과를 기반으로 평균 발성 강도 대비 상기 원시 발화자의 발성 강도에 대한 상대 값을 저장하는 것
인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
제12항에 있어서, 상기 특성 정보를 추출하는 단계는,
상기 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 중 적어도 하나의 단위별로 측정하며, 측정된 상기 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 획득되는 해당 단위별 음절 수 기반의 평균 발화 속도를 비교하며, 상기 비교 결과를 기반으로 평균 발화 속도 대비 상기 원시 발화자의 발화 속도에 대한 상대값을 저장하는 것
인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
제12항에 있어서, 상기 특성 정보를 추출하는 단계는,
MFCC(Mel-Frequency Cepstral Coefficient)와 성대파(Glottal Wave)의 특징 파라미터 중 적어도 하나의 특징 파라미터를 추출하는 것
인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
제12항에 있어서, 상기 합성 대상 번역문을 생성하는 단계는,
규칙 기반의 자동번역기(Rule-Based Machine Translator)인 경우, 번역 과정에서 상기 원시 음성에 대한 언어와 상기 번역 결과에 대한 언어에 대응하는 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출하며,
통계 기반의 자동번역기(Statistical Machine Translator)인 경우, 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위의 청킹(Chunking) 결과를 이용하여, 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출하는 것
인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
제12항에 있어서, 상기 합성음을 생성하는 단계는,
상기 합성 대상 번역문에서의 숫자 및 기호를 문자로 변환하는 단계;
변환된 상기 합성 대상 번역문의 문자에 대한 발음을 변환하는 단계;
상기 합성 대상 번역문에서의 억양구 및 문장에 상기 원시 발화자의 특성 정보를 기반으로 억양 및 강도를 부가하여 운율을 처리하는 단계; 및
운율 처리된 상기 합성 대상 번역문의 합성 단위들을 검색하고, 상기 검색 결과를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 단계;
를 포함하는 것인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
제18항에 있어서, 상기 운율을 처리하는 단계는,
상기 원시 음성 신호에 대한 음높이 정보, 발성 강도 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 운율을 부여하는 것
인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
제18항에 있어서, 상기 검색 결과를 기반으로 합성음을 생성하는 단계는,
상기 원시 음성 신호에 대한 발화 속도 정보 및 성도 특징 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 것
인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.