KR20200145776A

KR20200145776A - 음성보정 합성방법, 장치 및 프로그램

Info

Publication number: KR20200145776A
Application number: KR1020200075683A
Authority: KR
Inventors: 강남구; 조민수; 박수석; 공백선; 이해승
Original assignee: 강남구; 이해승; 공백선; 조민수; 박수석
Priority date: 2019-06-20
Filing date: 2020-06-22
Publication date: 2020-12-30

Abstract

정보처리기기에 의해 음성을 보정하여 합성하는 방법으로서, 특정인의 음성데이터의 보정을 통해 이루어지는 개인 데이터베이스가 포함된 음성합성 개인모델이 생성되는 모델 생성단계와; 출력용의 문자열이 입력되는 문자열 입력단계와; 상기 개인 데이터베이스가 포함된 음성합성 개인모델이 로딩되는 모델 로딩단계와; 상기 음성합성 개인모델에 의해 상기 문자열이 처리되어, 상기 개인 데이터베이스에 저장된 음성으로 음성데이터가 합성되는 음성합성 단계;가 포함되어 이루어지고, 상기 보정은, 상기 특정인의 입력된 음성데이터를 방언 데이터베이스 또는 표준어 데이터베이스로부터 선정되는 보정기준 데이터베이스의 음성데이터에 미리 정해진 유사도 이상으로 유사해지도록 변형시키는 처리로 이루어짐을 특징으로 하는, 음성보정 합성방법이 제공된다.

Description

음성보정 합성방법, 장치 및 프로그램{METHOD, APPARATUS AND PROGRAM OF VOICE CORRECTING SYNTHESIS}

본 발명은, 음성보정 합성방법, 장치 및 프로그램에 관한 것이다.

일반적으로, 컴퓨터 등 정보처리기기에 의해 인간의 음성을 합성하는 음성합성기술이 알려져 있다. 이런 음성합성기술에 의하면, 입력된 메시지, 예컨대 '안녕하세요'에 대해 음성의 구성요소별로 저장된 음성데이터베이스를 조회하여 구성요소들을 합성함으로써, 최종 음성출력을 내게 된다.

종래에 하기 특허문헌에 '핀란드어, 헝가리어, 사모예드어, 에스토니아어를 포함하는 우랄어족계의 언어와 한국어, 터키어, 몽고어, 퉁구스어, 일본어를 포함하는 알타이어족계통의 언어로 된 문자열을 해당 언어의 음성으로 합성하는 경우에 있어서, 상기 해당 언어로 된 문자열을 읽어들이는 단계; 상기 읽어들인 문자열 가운데 해당 언어 이외의 문자에 대해 전처리를 수행하는 단계; 형태소 사전을 참조하여 상기 읽어들인 문자열의 형태소 종류를 분석하는 단계; 상기 형태소 종류가 분석되면 형태소 사전과 기능어 사전을 참조하여 구절간의 문법적 결합관계를 구문분석하는 단계; 데이터베이스에 저장된 표기-음가 변환 규칙 및 예외사전을 참조하여 상기 형태소 분석 정보와 구문 분석 결과로 음가 변환을 수행하는 단계; 상기 변환된 음가를 후처리하는 단계; 및 상기 후처리된 음가를 음성출력수단으로 출력하는 단계를 포함하는, 음성합성 방법'이 개시되어 있다.

특허공개 10-2001-0106696 공보

상기 기술에 있어서는, 데이터베이스에 저장된 데이터에 따라 음가 변환을 수행하여 그 음가가 출력되는데, 이 데이터베이스에 저장된 데이터는 유저가 지정하는 어느 특정인의 음성이 아니라, 일반적인 음성, 예컨대 이름을 알 수 없는 어떤 임의의 표준어 성우의 음성으로 이루어져 있다. 따라서, 유저에 의해 지정된 특정인의 음성으로 출력하는 것은 불가능했다.

한편, 어느 특정인, 예컨대 어느 표준어 성우의 음성으로 데이터베이스를 구성할 때에도, 어떤 문자열과 그 문자열에 대한 그 특정인의 음성데이터를 쌍으로 연계시켜서 저장해야 했다. 따라서, 매우 많은 양의 데이터를 입력할 필요가 있었다.

게다가, 표준어가 아닌 방언 사용자의 음성으로 데이터베이스를 구성하는 경우에는, 문자열과 표준어 음성데이터의 정합성보다 낮은 문자열과 방언 음성데이터의 정합성으로 인해, 데이터베이스 형성에 더 많은 시행착오와 더 많은 에러율과 더 많은 생성시간이 소요되었다.

본 발명은, 상기 문제를 해결하기 위한 것으로서, 특정인의 개인 음성데이터로 이루어지는 개인 데이터베이스가 포함되는 음성합성 개인모델을 구비하고, 출력시 이 개인 데이터베이스에 저장된 음성으로 음성데이터가 합성되는, 음성보정 합성방법, 장치 및 프로그램을 제공하고자 하는 것이다.

또한, 음성합성 개인모델의 생성을 위한 보정시, 상기 특정인의 입력된 음성데이터를 보정기준 데이터베이스의 음성데이터에 유사해지도록 변형시키는, 음성보정 합성방법, 장치 및 프로그램을 제공하고자 하는 것이다.

또한, 보정기준 데이터베이스가 인공지능의 머신러닝을 통해 유사도의 고저에 의해 선정되는, 음성보정 합성방법, 장치 및 프로그램을 제공하고자 하는 것이다.

또한, 방언 데이터베이스 또는 표준어 데이터베이스가 빅데이터 처리나 입력되는 음성데이터의 통계처리의 결과인 통계치를 이용하여 생성되는, 음성보정 합성방법, 장치 및 프로그램을 제공하고자 하는 것이다.

또한, 방언 데이터베이스 또는 표준어 데이터베이스가 특정인의 남녀노소에 따라 분리 생성되는, 음성보정 합성방법, 장치 및 프로그램을 제공하고자 하는 것이다.

또한, 보정기준 데이터베이스의 음성데이터는, 발음속도가 조정되고, 보정은, 특정인의 입력된 음성데이터의 파형특징을 변경시키는, 음성보정 합성방법, 장치 및 프로그램을 제공하고자 하는 것이다.

또한, 보정기준 데이터베이스의 음성데이터와 특정인의 입력된 음성데이터는 각각, 캐릭터 임베딩에 의한 자모값을 가지도록 이루어지고, 보정은, 자모값을 변경시키는, 음성보정 합성방법, 장치 및 프로그램을 제공하고자 하는 것이다.

또한, 음성합성 개인모델은, 합성되는 음성데이터 중의 급격한 소멸음은 보강하고, 급격한 강세음은 감쇠시키도록 하는 처리를 포함하는, 음성보정 합성방법, 장치 및 프로그램을 제공하고자 하는 것이다.

상기 과제를 달성하기 위해, 본 발명의 방법은, 정보처리기기에 의해 음성을 보정하여 합성하는 방법으로서, 특정인의 음성데이터의 보정을 통해 이루어지는 개인 데이터베이스가 포함된 음성합성 개인모델이 생성되는 모델 생성단계와; 유저로부터 출력용의 문자열이 입력되는 문자열 입력단계와; 상기 개인 데이터베이스가 포함된 음성합성 개인모델이 로딩되는 모델 로딩단계와; 상기 음성합성 개인모델에 의해 상기 문자열이 처리되어, 상기 개인 데이터베이스에 저장된 음성으로 음성데이터가 합성되는 음성합성 단계;가 포함되어 이루어지고, 상기 보정은, 상기 특정인의 입력된 음성데이터를 방언 데이터베이스 또는 표준어 데이터베이스로부터 선정되는 보정기준 데이터베이스의 음성데이터에 미리 정해진 유사도 이상으로 유사해지도록 변형시키는 처리로 이루어짐을 특징으로 한다.

여기서, 상기 보정기준 데이터베이스의 선정시, 인공지능의 머신러닝을 통해, 상기 방언 데이터베이스 또는 상기 표준어 데이터베이스에 대한 상기 특정인의 입력된 음성데이터의 유사도가 결정되고, 상기 유사도가 가장 높은 상기 방언 데이터베이스 또는 상기 표준어 데이터베이스가 상기 보정기준 데이터베이스로 선정되도록 이루어짐이 바람직하다.

그리고, 상기 방언 데이터베이스 또는 상기 표준어 데이터베이스는, 빅데이터 처리나 입력되는 음성데이터의 통계처리의 결과인 통계치를 이용하여 생성됨이 바람직하다.

그리고, 상기 방언 데이터베이스 또는 상기 표준어 데이터베이스는, 상기 특정인의 남녀노소에 따라 분리 생성됨이 바람직하다.

그리고, 상기 보정기준 데이터베이스의 음성데이터는, 상기 특정인의 입력된 음성데이터의 산과 곡의 파형특징과 동조되도록 발음속도가 조정되고, 상기 보정은, 인공지능의 머신러닝을 통해, 상기 보정기준 데이터베이스의 음성데이터의 산과 곡의 진폭과 주기 중 어느 하나를 포함한 파형특징에 미리 정해진 유사도 이상으로 근접하도록 상기 특정인의 입력된 음성데이터의 진폭과 주기 중 어느 하나를 포함한 파형특징을 변경시키는 처리를 포함하도록 이루어짐이 바람직하다.

그리고, 상기 보정기준 데이터베이스의 음성데이터와 상기 특정인의 입력된 음성데이터는 각각, 캐릭터 임베딩에 의한 자모값을 가지도록 이루어지고, 상기 보정은, 인공지능의 머신러닝을 통해, 상기 보정기준 데이터베이스의 음성데이터의 자모값에 미리 정해진 유사도 이상으로 근접하도록 상기 특정인의 입력된 음성데이터의 상기 자모값을 변경시키는 처리를 포함하도록 이루어짐이 바람직하다.

그리고, 상기 음성합성 개인모델은, 합성되는 음성데이터 중의 급격한 소멸음은 보강하고, 급격한 강세음은 감쇠시키도록 하는 처리를 포함하고, 상기 급격한 소멸음 및 급격한 강세음은, 앞뒤의 음에 대한 미리 정해진 기준값 이상의 진폭변동에 의해 판단되도록 이루어짐이 바람직하다.

그리고, 상기 음성합성 개인모델을 생성한 상기 특정인과 상기 음성합성 개인모델을 이용하는 상기 유저는, 서로 상이한 사람이고, 상기 유저는, 상기 음성합성 개인모델의 이용을 위해 이용료를 지불하도록 이루어짐이 바람직하다.

한편, 본 발명의 장치는, 정보처리기기에 의해 음성을 보정하여 합성하는 장치로서, 특정인의 음성데이터의 보정을 통해 이루어지는 개인 데이터베이스가 포함된 음성합성 개인모델이 생성되는 모델 생성모듈과; 출력용의 문자열이 입력되는 문자열 입력모듈과; 상기 개인 데이터베이스가 포함된 음성합성 개인모델이 로딩되는 모델 로딩모듈과; 상기 음성합성 개인모델에 의해 상기 문자열이 처리되어, 상기 개인 데이터베이스에 저장된 음성으로 음성데이터가 합성되는 음성합성 모듈;이 포함되어 이루어지고, 상기 보정은, 상기 특정인의 입력된 음성데이터를 방언 데이터베이스 또는 표준어 데이터베이스로부터 선정되는 보정기준 데이터베이스의 음성데이터에 미리 정해진 유사도 유사해지도록 변형시키는 처리로 이루어짐을 특징으로 한다.

한편, 본 발명의 프로그램은, 음성보정 합성 프로그램으로서, 정보처리기기에 청구항 1 또는 청구항 2에 기재된 방법의 각 단계를 실행시키기 위한 프로그램을 기록한, 정보처리기기로 읽을 수 있는 저장매체에 기록된 프로그램이다.

본 발명에 의하면은, 특정인의 개인 음성데이터로 이루어지는 개인 데이터베이스가 포함되는 음성합성 개인모델을 구비하고, 출력시 이 개인 데이터베이스에 저장된 음성으로 음성데이터가 합성되는, 음성보정 합성방법, 장치 및 프로그램이 제공된다.

또한, 음성합성 개인모델의 생성을 위한 보정시, 상기 특정인의 입력된 음성데이터를 보정기준 데이터베이스의 음성데이터에 유사해지도록 변형시키는, 음성보정 합성방법, 장치 및 프로그램이 제공된다.

또한, 보정기준 데이터베이스가 인공지능의 머신러닝을 통해 유사도의 고저에 의해 선정되는, 음성보정 합성방법, 장치 및 프로그램이 제공된다.

또한, 방언 데이터베이스 또는 표준어 데이터베이스가 빅데이터 처리나 입력되는 음성데이터의 통계처리의 결과인 통계치를 이용하여 생성되는, 음성보정 합성방법, 장치 및 프로그램이 제공된다.

또한, 방언 데이터베이스 또는 표준어 데이터베이스가 특정인의 남녀노소에 따라 분리 생성되는, 음성보정 합성방법, 장치 및 프로그램이 제공된다.

또한, 보정기준 데이터베이스의 음성데이터는, 발음속도가 조정되고, 보정은, 특정인의 입력된 음성데이터의 파형특징을 변경시키는, 음성보정 합성방법, 장치 및 프로그램이 제공된다.

또한, 보정기준 데이터베이스의 음성데이터와 특정인의 입력된 음성데이터는 각각, 캐릭터 임베딩에 의한 자모값을 가지도록 이루어지고, 보정은, 자모값을 변경시키는, 음성보정 합성방법, 장치 및 프로그램이 제공된다.

또한, 음성합성 개인모델은, 합성되는 음성데이터 중의 급격한 소멸음은 보강하고, 급격한 강세음은 감쇠시키도록 하는 처리를 포함하는, 음성보정 합성방법, 장치 및 프로그램이 제공된다.

도 1은, 본 발명의 일실시예에 의한 음성보정 합성방법이 구현되는 장치의 블럭도이다.
도 2는, 동 방법이 실행되는 플로챠트이다.

이하, 첨부도면을 참조하면서 본 발명에 대해 상세히 설명한다. 다만, 동일구성에 의해 동일기능을 가지는 부재에 대해서는, 도면이 달라지더라도 동일부호를 유지함으로써, 그 상세한 설명을 생략하는 경우가 있다.

또한, 어떤 부재의 전후, 좌우, 상하에 다른 부재가 배치되거나 연결되는 관계는, 그 중간에 별도 부재가 삽입되는 경우를 포함한다. 반대로, 어떤 부재가 다른 부재의 '바로' 전후, 좌우, 상하에 있다고 할 때에는, 중간에 별도 부재가 없는 것을 뜻한다. 그리고 어떤 부분이 다른 구성요소를 '포함'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

그리고 구성의 명칭을 제1, 제2 등으로 구분한 것은, 그 구성이 동일한 관계로 이를 구분하기 위한 것으로, 반드시 그 순서에 한정되는 것은 아니다. 또한, 명세서에 기재된 '유닛', '수단', '부', '부재', '모듈' 등의 용어는, 적어도 하나의 기능이나 동작을 하는 포괄적인 구성의 단위를 의미한다. 그리고 명세서에 기재된 단말, 서버 등의 정보처리기기는, 특정한 기능이나 동작이 구현된 하드웨어를 의미하는 하드 와이어링을 기본적으로 의미하지만, 특정한 하드웨어에 한정되도록 해석되어서는 안되고, 일반 범용 하드웨어 상에 그 특정한 기능이나 동작이 구현되도록 하기 위해 구동되는 소프트웨어로 이루어지는 소프트 와이어링을 배제하는 것이 아니다. 즉, 단말 또는 서버는, 어떤 장치가 될 수도 있고, 앱과 같이, 어떤 기기에 설치되는 소프트웨어가 될 수도 있다.

그리고 도면에 나타난 각 구성의 크기 및 두께는, 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도면에 도시된 바에 한정되지 않으며, 층 및 영역 등의 여러 부분 및 영역을 명확하게 표현하기 위해 두께 등은 과장하여 확대 또는 축소하여 나타낸 경우가 있다.

<기본구성 - 방법>

본 발명의 방법은, 정보처리기기에 의해 음성을 보정하여 합성하는 방법이다. 도 1을 참조하면, 본 발명의 방법은, 서버(10)와 상기 서버에 접속되는 단말(20)로 이루어지는 시스템에서 구현되어도 좋지만, 본 발명은 이에 한하지 않고, 서버(10)에서만, 또는 단말(20)에서만 단독으로 이루어지도록 구현될 수도 있음은 자명하다. 이하의 설명에서는 서버-단말의 구성을 전제로 하여 설명하지만, 이 설명된 내용은 다른 구성에서 등가 내지 균등구성에 의해 적절히 치환, 변형되어 원용될 수 있다.

도 1과 같이, 서버(10)에 처리수단이 구비되고 단말(20)에서 입출력이 이루어지는 구성일 경우에, 상기 서버(10)에는 방언 데이터베이스(1, 2)와 표준어 데이터베이스(3), 그리고 개인 데이터베이스(4)가 구비된다. 이와 더불어, 상기 서버(10)에는 필터(11), 보정모듈(12), AI엔진(13), 빅데이터모듈(14), 모델관리모듈(15), 및 음성합성모듈(16)이 포함될 수 있다. 상기 단말에는, 입출력에 필요한 수단, 예컨대 키보드(문자입력), 화면(문자출력), 마이크(음성입력), 스피커(음성출력), 그리고 통신수단이나 메모리(21)(저장된 음성/문자열/동영상 데이터의 입력 및 출력) 등이 포함될 수 있다.

본 발명의 방법은, 모델 생성단계(S15)와; 문자열 입력단계(S16)와; 모델 로딩단계(S17)와; 음성합성 단계(S18);가 포함되어 이루어짐을 특징으로 한다.

상기 모델 생성단계(S15)는, 특정인의 음성데이터의 보정(S14)을 통해 이루어지는 개인 데이터베이스(4)가 포함된 음성합성 개인모델이 예컨대 모델관리모듈(15)에 의해 생성되는 단계이다.

상기 특정인의 음성합성 개인모델은, 그 특정인의 음성데이터가 보정된 상태로 개인 데이터베이스에 음성합성 모델로서 저장된 것이다. 따라서, 차후에 문자열이 입력되면, 그 특정인의 보정된 음성데이터가 합성되어 출력될 수 있게 된다.

상기 음성합성 개인모델은, 예컨대 상기 서버(10)에 저장되어 있다.

상기 문자열 입력단계(S16)는, 유저로부터 출력용의 문자열이 입력되는 단계이다.

상기 문자열은, 예컨대 서버(10)에 연결된 단말(20)의 키보드를 통해 직접 타이핑되거나, 상기 단말(20)의 메모리(21)에 저장되어 있거나, 상기 단말(20)에 데이터 연결된 다른 단말로부터 전송받은 문자열일 수 있다. 또는, 상기 문자열은, 상기 단말(20)의 마이크를 통해 입력된 음성데이터, 카메라를 통해 입력된 동영상 데이터, 상기 메모리(21)에 저장되어 있던 음성데이터나 동영상 데이터, 상기 단말에 통화 연결된 다른 단말로부터 음성 수신한 음성데이터나 동영상 수신한 동영상 데이터, 상기 단말에 데이터 연결된 다른 단말로부터 데이터 수신한 음성데이터나 동영상 데이터로부터 예컨대 STT 기술에 의해 변환된 문자열일 수 있다. 또는 상기 문자열은, 상기 단말(20)의 카메라에 의해 촬영된 사진이나 동영상, 상기 단말(20)의 메모리(21)에 저장된 사진이나 동영상, 상기 단말에 데이터 연결된 다른 단말로부터 데이터 수신한 사진이나 동영상 데이터로부터 예컨대 문자인식 기술에 의해 변환된 문자열일 수 있다.

상기 모델 로딩단계(S17)는, 상기 개인 데이터베이스(4)가 포함된 음성합성 개인모델이 예컨대 모델관리모듈(15)에 의해 로딩되는 단계이다.

상기 서버(10)에 복수의 음성합성 개인모델이 저장되어 있는 경우에는, 그 중 어느 음성합성 개인모델을 유저가 호출할 것인지의 특정이 필요하게 된다. 이러한 특정을 위해서는, 유저의 로그인이나 개인정보의 확인, 인증 등이 선행될 필요가 있다. 특히, 음성합성 개인모델의 개인 데이터베이스의 음성데이터를 제공한 특정인 자신만이 그 음성합성 개인모델을 이용할 수 있도록 제한하는 경우에는, 타인의 이용배제를 위해, 강력한 보안인증, 예컨대 생체정보에 의한 인증을 거치도록 하는 것이 바람직하다.

상기 음성합성 단계(S18)는, 상기 음성합성 개인모델에 의해 상기 문자열이 처리되어, 상기 개인 데이터베이스(4)에 저장된 음성으로 음성데이터가 합성되는 단계이다.

상기 음성합성 개인모델이 예컨대 음소단위로 형성된 경우에는, 입력된 문자열을 음소단위로 분리하고, 각 음소단위의 음성데이터 결합과 함께 의미있는 단어단위의 검증, 어구 단위의 검증 등을 거쳐서 음성데이터의 합성이 이루어진다. 상기 음성합성 개인모델이 예컨대 자모단위로 형성된 경우에는, 입력된 문자열을 자모단위로 분리하고, 각 자모단위의 음성데이터의 결합 및 음소단위의 음성데이터 결합과 함께 의미있는 단어단위의 검증, 어구 단위의 검증 등을 거쳐서 음성데이터의 합성이 이루어진다.

상기 합성은 상기 서버(10)에서 이루어질 수 있고, 상기 합성된 음성데이터는, 상기 서버에 연결된 단말(20)의 스피커를 통해 출력될 수 있다. 또는 상기 단말의 메모리(21)에 음성파일로 저장될 수도 있다. 또는 상기 단말의 음성통신수단을 거쳐서 통화출력의 음성으로서 통화 상대방에게 전달될 수도 있다. 또는 상기 단말의 데이터통신 수단을 통해 다른 단말에 음성데이터로서 전송될 수도 있다.

이하, 상기 모델생성 이전의 단계에 대해 설명한다.

상기 모델 생성단계(S15)의 이전에는, 방언 데이터베이스 및 표준어 데이터베이스 생성단계(S11), 특정인 개인 음성 입력단계(S12), AI엔진에 의한 보정기준 데이터베이스 선택단계(S13) 및 AI엔진에 의한 음성 보정단계(S14)를 거치게 된다.

상기 방언 데이터베이스 및 표준어 데이터베이스 생성단계(S11)는, 통계치를 이용하여 음성모델의 기준이 되는 기초 데이터베이스를 생성하는 단계이다. 본 실시예에 있어서는 1 이상의 방언 데이터베이스(1, 2)와 표준어 데이터베이스(3)를 생성하는 예를 들고 있으나, 본 발명은 이에 한하지 않고, 1 이상의 방언 데이터베이스(1, 2)와 표준어 데이터베이스(3) 중 어느 하나만 생성하고 이용하여도 본 발명의 구성에 해당되는 것으로 해석되어야 한다.

상기 방언 데이터베이스(1, 2) 및 표준어 데이터베이스(3)는, 예컨대 입력수단을 통해 입력되는 문자나 문자열과 음성데이터를 1쌍씩 수동으로 입력해서 구축하여도 좋지만, 보다 바람직하게는, 예컨대 입력수단을 통해 입력되는 음성데이터의 통계처리의 결과인 통계치를 이용하여 구축하거나 예컨대 빅데이터모듈(14)에 의해 예컨대 웹에서 수집한 빅데이터의 AI엔진(13)에 의한 머신러닝 처리에 의해 구축하여도 좋다.

상기 방언 데이터베이스(1, 2) 및 표준어 데이터베이스(3)의 구축에 이용되는 음성데이터는, 미리 정해진 필터를 거쳐서 필터링되도록 전처리함이 바람직하다.

상기 방언 데이터베이스(1, 2) 또는 상기 표준어 데이터베이스(3)는, 상기 특정인의 남녀노소에 따라 분리 생성됨이 바람직하다. 예컨대 특정인이 남성일 경우, 그 음성을 변조해서 여성의 음성으로 만드는 것은 가능하지만, 일반적으로는 부자연스러운 결과가 된다. 반대의 경우도 마찬가지이다. 또한, 이러한 사정은 나이에 따른 노소의 경우에도 마찬가지이다. 따라서, 큰 분류로서 남녀노소를 구분해서 데이터베이스 형성을 해 둠으로써, 보다 현실에 가까운 음성합성 출력결과를 얻을 수가 있게 된다.

상기 특정인 개인 음성 입력단계(S12)는, 앞으로 음성합성 개인모델에 사용될 특정인의 음성데이터를 입력하는 단계이다.

상기 입력되는 특정인 개인의 음성데이터는, 예컨대 입력수단을 통해 입력되는 문자나 문자열과 음성데이터를 1쌍씩 수동으로 입력해서 구축하는 것도 생각될 수 있지만, 보다 바람직하게는, 예컨대 입력수단을 통해 입력되는 음성데이터의 통계처리의 결과인 통계치를 이용하여 구축하거나 예컨대 빅데이터모듈(14)에 의해 예컨대 상기 특정인의 단말에서 수집한 빅데이터의 AI엔진(13)에 의한 머신러닝 처리에 의해 구축하여도 좋다. 상기 특정인의 단말에서 수집 가능한 빅데이터로서는, 예컨대 휴대폰 통화시 실시간으로 수집되는 음성데이터, 동영상 촬영시 수집되는 음성데이터, 휴대폰에 저장되어 있는 녹음물, 영상물 등으로부터 수집되는 음성데이터이며, 데이터통신 연결된 다른 단말로부터 전송받는 음성데이터나 영상데이터로부터 추출한 음성데이터 등이 이용될 수 있다.

상기 입력된 특정인의 음성데이터도, 미리 정해진 필터를 거쳐서 필터링되도록 전처리함이 바람직하다.

상기 AI엔진에 의한 보정기준 데이터베이스 선택단계(S13)는, 상기 입력된 특정인의 음성데이터의 특성이 어느 방언 데이터베이스 또는 표준어 데이터베이스에 저장된 음성데이터의 특성과 유사한지를 결정함으로써, 그 특정인의 음성데이터의 보정시 기준이 될 음성데이터를 가지는 데이터베이스를 선택하는 단계이다. 이 데이터베이스의 선택은 매우 중요한 의미를 가지며, 그 수행은 AI엔진(13)에 의한다.

상기 보정기준 데이터베이스의 선정(S13)시, 구체적으로는 인공지능의 머신러닝, 예컨대 AI엔진(13)을 통해, 상기 방언 데이터베이스(1, 2) 또는 상기 표준어 데이터베이스(3)(S11)에 대한 상기 특정인의 입력된 음성데이터(S12)의 유사도가 결정되고, 상기 유사도가 가장 높은 상기 방언 데이터베이스(1, 2) 또는 상기 표준어 데이터베이스(3)가 상기 보정기준 데이터베이스로 선정(S13)되도록 이루어질 수 있다.

상기 유사도의 산정은, 파형 특성상의 산과 곡의 진폭과 주기를 포함하는 그래프 형상의 특성을 이용할 수 있고, 구체적으로는 동일 속도로 스케일링 조정 후 구간 파형의 적분치의 차이를 비교하거나, 그 이동평균의 차이를 비교하는 방식을 이용할 수도 있다.

상기 AI엔진에 의한 음성 보정단계(S14)는, 상기 입력된 특정인의 음성데이터의 특성을, 상기 보정기준 데이터베이스로 선택된 방언 데이터베이스 또는 표준어 데이터베이스의 음성데이터의 특성에 미리 정해진 유사도 이상으로 유사 내지 근접하도록 변화시키는 단계이다. 이 보정(S14)은 매우 중요한 의미를 가지며, 그 수행은 예컨대 보정모듈(12) 및 AI엔진(13)에 의한다.

상기 보정(S14)은, 여러가지 방식에 의하여 수행될 수도 있겠지만, 본 발명에서는, 속도 동조 후 파형의 형상에 대한 통계처리에 의한 파형 유사도가 기준치 이상이 되도록 하는 기하통계학적 접근법에 의해 보정하는 것을 예로 들 수 있다. 여기에도 다양한 실시예가 가능하겠지만, 구체적으로는 예컨대, 상기 보정기준 데이터베이스의 음성데이터는, 예컨대 보정모듈(12)에 의해, 상기 특정인의 입력된 음성데이터의 산과 곡의 파형특징과 동조되도록 발음속도가 조정되도록 하고, 상기 보정(S14)은, 예컨대 보정모듈(12)에 의해, 인공지능의 머신러닝, 예컨대 AI엔진(13)을 통해, 상기 보정기준 데이터베이스의 음성데이터의 산과 곡의 진폭과 주기 중 어느 하나를 포함한 파형특징에 미리 정해진 유사도 이상으로 근접하도록 상기 특정인의 입력된 음성데이터의 진폭과 주기 중 어느 하나를 포함한 파형특징을 변경시키는 처리를 포함하도록 이루어도록 할 수 있다. 여기서, 유사도의 결정은, 다양한 방법으로 수행할 수 있을 것이지만, 예컨대, 상기 입력된 특정인의 음성데이터의 파형 그래프의 구간별 적분치와, 그 대응되는 구간에 있어서의 상기 보정기준 데이터베이스의 음성데이터의 구간별 적분치의 차이가 기준치 이하인지 여부에 의해 유사도를 판정할 수도 있고, 예컨대 상기 구간별 적분치의 이동평균치의 차이가 기준치 이하인지 여부에 의해 유사도를 판정할 수도 있다.

다른 방식으로는, 상기 보정(S14)의 수행을 위해, 상기 보정기준 데이터베이스의 음성데이터와 상기 특정인의 입력된 음성데이터는 각각, 예컨대 보정모듈(12) 및 AI엔진(13)에 의해, 캐릭터 임베딩에 의한 자모값을 가지도록 이루어지고, 상기 보정(S14)은, 예컨대 보정모듈(12)에 의해, 인공지능의 머신러닝, 예컨대 AI엔진(13)을 통해, 상기 보정기준 데이터베이스의 음성데이터의 자모값에 미리 정해진 유사도 이상으로 근접하도록 예컨대 미리 정해진 가중치에 의해 상기 특정인의 입력된 음성데이터의 상기 자모값을 변경시키는 처리를 포함하도록 이루어질 수도 있다. 상기 자모값은, AI엔진의 인코더(Encoder)의 캐릭터 임베딩에 의해 입력된 문자열의 특성을 잘 나타내는 숫자로 표현하는 값이며, 예컨대 '명작'라는 문자열에 대해서 'ㅁ', 'ㅕ', 'ㅇ', 'ㅈ', 'ㅏ', 'ㄱ'으로 자모를 분리하고, 각 자모에 대해 예컨대

'ㅁ' 'ㅕ' 'ㅇ' 'ㅈ' 'ㅏ' 'ㄱ'

0.0 0.9 0.8 0.5 0.7 0.3

0.0 0.0 0.0 1.0 0.5 0.0

0.1 0.1 0.2 0.9 0.9 0.2

과 같은 식으로 AI엔진에 의해 부여된 값을 말한다. AI엔진(13)에 학습을 반복할 때, 각 자모의 자모값은 변화되고, 반복학습에 의해 특정값으로 수렴 안정화된다. 보정기준 데이터베이스에 저장된 음성데이터에 대해서는 반복된 AI학습에 의해 안정화된 자모값이 배정되어 있다고 할 때, 특정인의 입력 음성데이터로부터 파악되는 자모값은, 서로 차이를 가지게 된다. 이 차이를 줄여서, 입력 음성데이터의 자모값이 보정기준 데이터베이스의 음성데이터의 자모값에 근접하도록 변형시키는 작업이 보정이다.

상기 유사도의 기준치는, 데이터 변형시 적용되는 가중치의 부여에 따라 변화될 수 있다. 상기 유사도는 예컨대 90%로 지정될 수 있다. 즉, 앞서의 보정에 의한 결과 유사도가 90% 이하인 경우에는 가중치를 증가시켜서 특정인의 입력 음성데이터의 특성이 보정기준 데이터베이스의 음성데이터의 특성에 더 근접하게 변화될 수 있도록 할 수 있다.

참고로, 상기 언급된 AI엔진(13)에 의한 보정기준 데이터베이스의 선택단계(S13)에 있어서도, 입력된 특정인의 음성데이터와 방언 데이터베이스(1, 2) 및 표준어 데이터베이스(3) 사이의 유사도의 산정에 있어서도, 상기 자모값의 차가 가장 작은 경우에 유사도가 가장 큰 것으로 판단하는 방식을 이용할 수도 있다.

한편, AI엔진(13)의 학습데이터가 부족한 경우에는, 합성된 음성의 특성이 좋지 않게 될 수 있다. 예컨대 음성출력의 종결어나 단어의 후단의 발음이 급격히 줄어드는 소멸음이 발생되는 경우도 있고, 단어나 어절의 선단의 발음이 지나치게 강한 강세음이 나타나는 경우도 있다.

본 발명에서는, 상기 음성합성 개인모델은, 예컨대 상기 보정모듈(12), AI엔진(13) 및 음성합성모듈(16)에 의해, 합성되는 음성데이터 중의 급격한 소멸음은 보강하고, 급격한 강세음은 감쇠시키도록 하는 처리를 포함하도록 함이 바람직하다. 이때, 상기 급격한 소멸음 및 급격한 강세음은, 앞뒤의 음에 대한 미리 정해진 기준값 이상의 진폭변동에 의해 판단되도록 이루어지도록 할 수 있다. 즉, 앞이나 뒤의 음의 값이 예컨대 0.3이었는데 이번 음의 값이 0.9가 된다면, 청취시 부자연스럽게 된다. 이런 경우에, 이번 음의 값을 0.7로 순화시킴으로써, 청취시 부자연스럽지 않은 음이 되도록 스무딩 처리할 수 있다.

한편, 본 발명에 있어서, 상기 음성합성 개인모델을 생성한 상기 특정인과 상기 음성합성 개인모델을 이용하는 상기 유저는, 서로 상이한 사람이고, 상기 유저는, 상기 음성합성 개인모델의 이용을 위해 이용료를 지불하도록 이루어질 수 있다.

참고로, 본 발명은, 기초가 되는 데이터베이스의 생성 및 이 데이터베이스를 이용한 모델의 생성, 그리고 이 모델을 이용한 음성의 합성의 흐름으로 이해될 수도 있다. 즉, 방언 데이터베이스 및 표준어 데이터베이스 생성단계(S11)에 의해 기초 데이터베이스들이 생성되고, 이 기초 데이터베이스를 이용해서 출력 음성을 제공할 특정인 개인이 특정인 개인 음성 입력단계(S12), AI엔진에 의한 보정기준 데이터베이스 선택단계(S13), AI엔진에 의한 음성 보정단계(S14) 및 모델 생성단계(S15)에 의해 모델을 생성하며, 이 모델을 유저가 문자열 입력단계(S16), 모델 로딩단계(S17) 및 음성합성 단계(S18)에 의해 합성에 이용한다.

여기서, 모델을 생성한 특정인과 모델을 이용하는 유저는, 동일인일 수도 있고 다른 사람일 수도 있다. 즉, 개인 음성모델을 음성 소유자가 사용 가능하지만, 그렇지 않고 제3자가 구매(무료 또는 유료)하여 제3자의 기기에서 예컨대 휴대폰 벨소리나 알람소리 등에 사용 가능하다.

<장치>

한편, 본 발명의 장치는, 정보처리기기에 의해 음성을 보정하여 합성하는 장치이다. 본 발명의 장치는, 모델 생성모듈(S15)과; 문자열 입력모듈(S16)과; 모델 로딩모듈(S17)과; 음성합성 모듈(S18);이 포함되어 이루어짐을 특징으로 한다.

상기 모델 생성모듈(S15)은, 특정인의 음성데이터의 보정(S14)을 통해 이루어지는 개인 데이터베이스(4)가 포함된 음성합성 개인모델이 생성되는 모듈이다.

상기 문자열 입력모듈(S16)은, 출력용의 문자열이 입력되는 모듈이다.

상기 모델 로딩모듈(S17)은, 상기 개인 데이터베이스(4)가 포함된 음성합성 개인모델이 로딩되는 모듈이다.

상기 음성합성 모듈(S18)은, 상기 음성합성 개인모델에 의해 상기 문자열이 처리되어, 상기 개인 데이터베이스(4)에 저장된 음성으로 음성데이터가 합성되는 모듈이다.

여기서, 상기 보정(S14)은, 상기 특정인의 입력된 음성데이터(S12)를 방언 데이터베이스(1, 2) 또는 표준어 데이터베이스(3)(S11)로부터 선정되는 보정기준 데이터베이스(S13)의 음성데이터에 미리 정해진 유사도 유사해지도록 변형시키는 처리로 이루어져도 좋다.

<프로그램>

본 발명의 프로그램은, 음성보정 합성 프로그램이다. 본 발명의 프로그램은, 정보처리기기에 상기 기재된 방법의 각 단계를 실행시키기 위한 프로그램을 기록한, 정보처리기기로 읽을 수 있는 저장매체에 기록된 프로그램이다.

이상 본 발명의 바람직한 실시예에 대해 설명했지만, 본 발명은, 상기 개시되는 실시예들에 한정되는 것이 아니라, 특허청구범위와 발명의 상세한 설명 및 첨부 도면의 범위 안에서 서로 다른 다양한 형태로 변형하여 구현 실시될 수 있고, 균등한 타 실시예가 가능하며, 이 또한 본 발명의 범위에 속하는 것은 당해 분야에서 통상적 지식을 가진 자에게 당연하며, 단지 실시예들은, 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은, 청구항의 범주에 의해 정의될 뿐이다.

본 발명은, 음성보정 합성방법, 장치 및 프로그램의 산업에 이용될 수 있다.

1, 2: 방언 데이터베이스
3: 표준어 데이터베이스
4: 개인 데이터베이스
10: 서버
11: 필터
12: 보정모듈
13: AI엔진
14: 빅데이터모듈
15: 모델관리모듈
16: 음성합성모듈
20: 단말
21: 메모리

Claims

정보처리기기에 의해 음성을 보정하여 합성하는 방법으로서,
특정인의 음성데이터의 보정을 통해 이루어지는 개인 데이터베이스가 포함된 음성합성 개인모델이 생성되는 모델 생성단계와;
유저로부터 출력용의 문자열이 입력되는 문자열 입력단계와;
상기 개인 데이터베이스가 포함된 음성합성 개인모델이 로딩되는 모델 로딩단계와;
상기 음성합성 개인모델에 의해 상기 문자열이 처리되어, 상기 개인 데이터베이스에 저장된 음성으로 음성데이터가 합성되는 음성합성 단계;
가 포함되어 이루어지고,
상기 보정은, 상기 특정인의 입력된 음성데이터를 방언 데이터베이스 또는 표준어 데이터베이스로부터 선정되는 보정기준 데이터베이스의 음성데이터에 미리 정해진 유사도 이상으로 유사해지도록 변형시키는 처리로 이루어짐
을 특징으로 하는, 음성보정 합성방법.
청구항 1에 있어서,
상기 보정기준 데이터베이스의 선정시, 인공지능의 머신러닝을 통해,
상기 방언 데이터베이스 또는 상기 표준어 데이터베이스에 대한 상기 특정인의 입력된 음성데이터의 유사도가 결정되고,
상기 유사도가 가장 높은 상기 방언 데이터베이스 또는 상기 표준어 데이터베이스가 상기 보정기준 데이터베이스로 선정되도록 이루어짐
을 특징으로 하는, 음성보정 합성방법.
청구항 1에 있어서,
상기 방언 데이터베이스 또는 상기 표준어 데이터베이스는, 빅데이터 처리나 입력되는 음성데이터의 통계처리의 결과인 통계치를 이용하여 생성됨
을 특징으로 하는, 음성보정 합성방법.
청구항 1 또는 청구항 2에 있어서,
상기 방언 데이터베이스 또는 상기 표준어 데이터베이스는, 상기 특정인의 남녀노소에 따라 분리 생성됨
을 특징으로 하는, 음성보정 합성방법.
청구항 1 또는 청구항 2에 있어서,
상기 보정기준 데이터베이스의 음성데이터는, 상기 특정인의 입력된 음성데이터의 산과 곡의 파형특징과 동조되도록 발음속도가 조정되고,
상기 보정은, 인공지능의 머신러닝을 통해, 상기 보정기준 데이터베이스의 음성데이터의 산과 곡의 진폭과 주기 중 어느 하나를 포함한 파형특징에 미리 정해진 유사도 이상으로 근접하도록 상기 특정인의 입력된 음성데이터의 진폭과 주기 중 어느 하나를 포함한 파형특징을 변경시키는 처리를 포함하도록 이루어짐
을 특징으로 하는, 음성보정 합성방법.
청구항 1 또는 청구항 2에 있어서,
상기 보정기준 데이터베이스의 음성데이터와 상기 특정인의 입력된 음성데이터는 각각, 캐릭터 임베딩에 의한 자모값을 가지도록 이루어지고,
상기 보정은, 인공지능의 머신러닝을 통해, 상기 보정기준 데이터베이스의 음성데이터의 자모값에 미리 정해진 유사도 이상으로 근접하도록 상기 특정인의 입력된 음성데이터의 상기 자모값을 변경시키는 처리를 포함하도록 이루어짐
을 특징으로 하는, 음성보정 합성방법.
청구항 1 또는 청구항 2에 있어서,
상기 음성합성 개인모델은, 합성되는 음성데이터 중의 급격한 소멸음은 보강하고, 급격한 강세음은 감쇠시키도록 하는 처리를 포함하고,
상기 급격한 소멸음 및 급격한 강세음은, 앞뒤의 음에 대한 미리 정해진 기준값 이상의 진폭변동에 의해 판단되도록 이루어짐
을 특징으로 하는, 음성보정 합성방법.
청구항 1 또는 청구항 2에 있어서,
상기 음성합성 개인모델을 생성한 상기 특정인과 상기 음성합성 개인모델을 이용하는 상기 유저는, 서로 상이한 사람이고,
상기 유저는, 상기 음성합성 개인모델의 이용을 위해 이용료를 지불하도록 이루어짐
을 특징으로 하는, 음성보정 합성방법.
정보처리기기에 의해 음성을 보정하여 합성하는 장치로서,
특정인의 음성데이터의 보정을 통해 이루어지는 개인 데이터베이스가 포함된 음성합성 개인모델이 생성되는 모델 생성모듈과;
출력용의 문자열이 입력되는 문자열 입력모듈과;
상기 개인 데이터베이스가 포함된 음성합성 개인모델이 로딩되는 모델 로딩모듈과;
상기 음성합성 개인모델에 의해 상기 문자열이 처리되어, 상기 개인 데이터베이스에 저장된 음성으로 음성데이터가 합성되는 음성합성 모듈;
이 포함되어 이루어지고,
상기 보정은, 상기 특정인의 입력된 음성데이터를 방언 데이터베이스 또는 표준어 데이터베이스로부터 선정되는 보정기준 데이터베이스의 음성데이터에 미리 정해진 유사도 유사해지도록 변형시키는 처리로 이루어짐
을 특징으로 하는, 음성보정 합성장치.
음성보정 합성 프로그램으로서,
정보처리기기에 청구항 1 또는 청구항 2에 기재된 방법의 각 단계를 실행시키기 위한 프로그램을 기록한, 정보처리기기로 읽을 수 있는 저장매체에 기록된 프로그램.