KR102287325B1

KR102287325B1 - 외형 이미지를 고려한 음성 합성 장치 및 음성 합성 방법

Info

Publication number: KR102287325B1
Application number: KR1020190046930A
Authority: KR
Inventors: 양일호; 유하진; 허희수; 윤성현
Original assignee: 서울시립대학교 산학협력단
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2021-08-06
Also published as: KR20200123689A

Abstract

외형 이미지를 고려한 음성합성장치가 제공된다. 상기 음성합성장치는, 복수의 외형 이미지와 상기 외형 이미지에 대응하는 음성 샘플을 저장하고 있는 데이터 베이스부와; 음성 합성이 필요한 캐릭터 이미지와 상기 캐릭터 이미지가 음성으로 출력해야 하는 텍스트 정보를 수신하는 합성 정보 수신부와; 상기 캐릭터 이미지가 수신되면, 상기 복수의 외형 이미지 중 상기 캐릭터 이미지와 외형적으로 유사한 외형 이미지를 검색하는 이미지 유사도 판단부와; 및 상기 텍스트 정보를 상기 검색된 외형 이미지에 대응하는 음성 샘플로 합성하는 음성 합성부를 포함한다.

Description

외형 이미지를 고려한 음성 합성 장치 및 음성 합성 방법{METHOD AND APPARATUS FOR GENERATING A VOICE SUITABLE FOR THE APPEARANCE}

본 발명은 음성합성장치 및 음성합성방법에 관한 것으로, 보다 구체적으로 게임이나 애니메이션 등의 멀티미디어 콘텐츠 내 가상 인물의 음성을 생성하는 음성합성장치 및 음성합성방법에 관한 것이다.

소규모 게임 개발사(혹은 다른 멀티미디어 콘텐츠 제작사)에서는 캐릭터의 목소리를 추가하는 작업이 매우 큰 부담이 될 수 있다. 예를 들어, 게임 내에 등장하는 특정한 캐릭터의 음성을 추가하기 위해서는, 해당 캐릭터의 외형/성격 등에 어울리는 전문 성우를 섭외하고, 녹음 설비 및 장소를 준비하고, 성우의 발화를 녹음하고, 녹음한 결과물을 편집하는 과정 등이 필요하다. 일반적으로 이러한 작업에는 많은 시간적, 금전적 비용이 소요된다.

또한 캐릭터에게 목소리를 추가할지, 아니면 캐릭터의 대사를 텍스트로만 출력할지 여부가 게임의 흥행에 큰 영향을 준다고 보기는 어려우므로, 캐릭터의 목소리는 추가하면 좋지만 없어도 무방한 것으로 인식되기가 쉽다.

음성 합성은 컴퓨터 소프트웨어를 통해 가상의 음성 신호(오디오 스트림 혹은 파일)를 생성하는 기술이므로, 이러한 상황에서의 대안이 될 수 있다. 음성 합성(speech synthesis)이란 컴퓨터로 가상의 음성 신호를 생성하는 기술을 의미하며, 일반적인 음성 합성기는 음성의 내용(텍스트 정보)을 입력 받아 음성 신호(오디오 스트림 혹은 파일)를 출력한다. 최근의 음성 합성 기술은 목소리, 억양 등을 조절하여 음성을 합성하는 것으로 발전하고 있다.

다만, 종래의 음성 합성 기술은 제한된 특정인의 목소리로만 음성을 생성하므로, 서로 다른 많은 캐릭터들이 등장하는 콘텐츠 개발에 적용하기는 어렵다. 만약 서로 다른 목소리를 제공하는 여러 음성 합성기를 이용하거나, 하나의 음성 합성기에서 여러 사람의 목소리 중 하나를 지정할 수 있는 기능을 제공하더라도, 어떤 목소리가 어떤 캐릭터에게 가장 잘 어울리는지 확인하는 작업은 사람이 수행해야 하므로 여전히 큰 부담이 될 수 있다.

따라서, 특정 콘텐츠에 가정 어울리는 목소리를 자동으로 탐색하고 해당 목소리로 음성을 생성할 수 있는 방법이 요구된다.

미국 등록특허공보 제6970820호 한국 공개특허공보 제10-2019-0002386호

본 발명이 해결하고자 하는 과제는, 특정 캐릭터에 가정 어울리는 목소리를 자동으로 탐색하고 해당 목소리로 음성을 생성할 수 있는 음성합성장치 및 음성합성방법을 제공하는 것이다.

또한, 본 발명이 해결하고자 하는 과제는, 멀티미디어 콘텐츠 개발 시 캐릭터 음성 녹음에 소요되는 비용을 절감할 수 있는 음성합성장치 및 음성합성방법을 제공하는 것이다.

본 발명의 실시예에 따르면, 외형 이미지를 고려한 음성합성장치가 제공된다. 상기 음성합성장치는, 복수의 외형 이미지와 상기 외형 이미지에 대응하는 음성 샘플을 저장하고 있는 데이터 베이스부와; 음성 합성이 필요한 캐릭터 이미지와 상기 캐릭터 이미지가 음성으로 출력해야 하는 텍스트 정보를 수신하는 합성 정보 수신부와; 상기 캐릭터 이미지가 수신되면, 상기 복수의 외형 이미지 중 상기 캐릭터 이미지와 외형적으로 유사한 외형 이미지를 검색하는 이미지 유사도 판단부와; 및 상기 텍스트 정보를 상기 검색된 외형 이미지에 대응하는 음성 샘플로 합성하는 음성 합성부를 포함한다.

상기 이미지 유사도 판단부는, 얼굴 유사도 판단 알고리즘, 표정 유사도 판단 알고리즘, 감정 유사도 판단 알고리즘 및 의복 유사도 판단 알고리즘 중 적어도 하나를 이용하여 이미지 인식을 수행함으로써, 상기 캐릭터 이미지와 유사한 인식을 갖는 상기 외형 이미지를 검출할 수 있다.

상기 이미지 유사도 판단부는, 상기 얼굴 유사도 판단 알고리즘, 상기 표정 유사도 판단 알고리즘, 상기 감정 유사도 판단 알고리즘 및 상기 의복 유사도 판단 알고리즘에 대한 가중치를 조절하여 유사도 점수를 계산할 수 있다.

상기 이미지 유사도 판단부는, 상기 유사도 점수가 높은 순서에 따라 선택된 기설정된 개수의 외형 이미지를 후보군으로 설정할 수 있다.

상기 음성 합성부는 사용자의 선택에 따라 상기 테스트 음성을 출력할 수 있다.

사용자에 의하여 상기 유사도 점수가 가장 높은 외형 이미지에 대응하는 테스트 음성이 최종 출력 음성으로 선택되지 않은 경우에, 상기 이미지 유사도 판단부는 상기 가중치를 변경할 수 있다.

상기 외형 이미지는 동일 인물에 대한 이미지에 대하여 표정, 감정 또는 의복 중 적어도 하나가 상이하면, 서로 다른 외형 이미지로 저장될 수 있다.

상기 이미지 유사도 판단부는, 사용자로부터 수신한 외형 이미지의 감정, 음성 억양, 나이, 성별, 지역 정보 중 적어도 하나에 대한 부가 정보에 기초하여 외형 이미지를 검색할 수 있다.

또한, 본 발명의 다른 실시예에 따르면, 외형 이미지를 고려한 음성합성방법이 제공된다. 상기 음성합성방법은, 복수의 외형 이미지와 상기 외형 이미지에 대응하는 음성 샘플을 저장하는 단계와; 음성 합성이 필요한 캐릭터 이미지와 상기 캐릭터 이미지가 음성으로 출력해야 하는 텍스트 정보를 수신하는 단계와; 상기 캐릭터 이미지가 수신되면, 상기 복수의 외형 이미지 중 상기 캐릭터 이미지와 외형적으로 유사한 외형 이미지를 검색하는 이미지 유사도 판단 단계와; 및 상기 텍스트 정보를 상기 검색된 외형 이미지에 대응하는 음성 샘플로 합성하는 단계를 포함한다.

또한, 본 발명의 또 다른 실시예에 따르면, 외형 이미지를 고려한 음성합성장치가 제공된다. 상기 음성합성장치는, 복수의 외형 이미지와 상기 외형 이미지에 대응하는 음성 샘플을 저장하고 있는 데이터 베이스부와; 음성 합성이 필요한 캐릭터 이미지가 수신되면, 얼굴 유사도 판단 알고리즘, 표정 유사도 판단 알고리즘, 감정 유사도 판단 알고리즘 및 의복 유사도 판단 알고리즘 중 적어도 복수의 알고리즘에 가중치를 적용하여 상기 캐릭터 이미지와 유사한 인식을 갖는 상기 외형 이미지를 검출하는 이미지 인식부와; 및 상기 캐릭터 이미지가 음성으로 출력해야 하는 텍스트 정보를 상기 음성 샘플로 합성하는 음성 합성부를 포함한다.

상기 이미지 인식부는, 사용자로부터 수신한 외형 이미지의 감정, 음성 억양, 나이, 성별, 지역 정보 중 적어도 하나에 대한 부가 정보에 기초하여 외형 이미지를 검색할 수 있다.

본 발명의 실시예에 따르면, 특정 캐릭터에 가정 어울리는 목소리를 자동으로 탐색하고 해당 목소리로 음성을 생성할 수 있는 음성합성장치 및 음성합성방법이 제공될 수 있다.

본 발명에 따르면, 멀티미디어 콘텐츠 개발 시 캐릭터 음성 녹음에 소요되는 비용을 절감할 수 있는 음성합성장치 및 음성합성방법이 제공될 수 있다.

또한, 본 발명에 따르면, 전문 성우의 녹음 과정을 대체하거나, 전문 성우에게 어떻게 연기해야 하는지 가이드 라인을 명확히 제공함으로써 녹음 시간을 단축할 수 있는 음성합성장치 및 음성합성방법이 제공될 수 있다.

또한, 본 발명에 따르면, 게임 플레이어가 실시간으로 캐릭터 어울리는 목소리의 음성을 자동 합성 및 선택할 수 있으므로 캐릭터 선택의 자유도 및 편의성이 증대될 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성합성장치의 제어블록도이다.
도 2는 본 발명의 일 실시예에 따른 데이터베이스부에 저장되어 있는 정보를 도시한 도면이다.
도 3은 본 발명의 다른 실시예에 따른 음성합성장치의 제어블럭도이다.
도 4는 본 발명의 일 실시예에 따른 외형 유사도 판단을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 음성합성 테스트를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 음성합성방법을 설명하기 위한 제어흐름도이다.
도 7는 본 발명의 일 실시예에 따른 외형 유사도 판단 방법을 설명하기 위한 제어흐름도이다.
도 8은 본 발명의 또 다른 실시예에 따른 음성합성장치의 제어블럭도이다.
도 9는 본 발명의 실시예에 따른, 컴퓨팅 장치를 나타내는 도면이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 명세서에서, 동일한 구성요소에 대해서 중복된 설명은 생략한다.

또한 본 명세서에서, 어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나 '접속되어' 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에 본 명세서에서, 어떤 구성요소가 다른 구성요소에 '직접 연결되어' 있다거나 '직접 접속되어' 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

또한, 본 명세서에서 사용되는 용어는 단지 특정한 실시예를 설명하기 위해 사용되는 것으로써, 본 발명을 한정하려는 의도로 사용되는 것이 아니다.

또한 본 명세서에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.

또한 본 명세서에서, '포함하다' 또는 '가지다' 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품, 또는 이들을 조합한 것이 존재함을 지정하려는 것일 뿐, 하나 또는 그 이상의 다른 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 할 것이다.

또한 본 명세서에서, '및/또는' 이라는 용어는 복수의 기재된 항목들의 조합 또는 복수의 기재된 항목들 중의 어느 항목을 포함한다. 본 명세서에서, 'A 또는 B'는, 'A', 'B', 또는 'A와 B 모두'를 포함할 수 있다.

또한 본 명세서에서, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략될 것이다.

게임, 애니메이션 등의 멀티미디어 콘텐츠 내에 등장하는 가상 인물에게 음성을 부여하기 위해서는 가상 인물의 이미지에 어울리는 목소리의 전문 성우를 섭외하고, 발화를 녹음하고, 녹음한 결과물을 편집하는 과정 등이 필요하다.

본 발명에서는 이러한 과정에서 소요되는 시간적, 비용적 부담을 줄이기 위해, 가상 캐릭터의 외형(이미지)을 입력받아 이에 어울리는 목소리의 음성을 합성하는 방법을 제안한다.

도 1은 본 발명의 일 실시예에 따른 음성합성장치의 제어블록도이다.

도시된 바와 같이, 본 실시예에 따른 음성합성장치는 데이터베이스부(100), 합성 정보 수신부(200), 이미지 유사도 판단부(300) 및 음성 합성부(400)를 포함할 수 있다.

데이터베이스부(100)는 복수의 외형 이미지와 이러한 외형 이미지에 대응하는 음성 샘플을 저장하고 있는 저장부로써, 본 발명에서는 인물의 외형과 음성을 하나의 레코드로 묶어 데이터베이스를 구축한다.

데이터베이스부(100)에 저장되는 외형 이미지는 동일한 인물이라고 할지라도 발화 시의 표정 또는 의복 등의 외형이 다르다면 서로 다른 레코드로 저장할 수 있다. 같은 인물의 발화라도 상황에 따라 어조 등이 달라질 수 있으므로, 이러한 변화를 반영하여 음성을 출력하기 위함이다.

도 2는 본 발명의 일 실시예에 따른 데이터베이스부에 저장되어 있는 정보를 도시한 도면이다.

도시된 바와 같이, 레코드 1 내지 레코드 3은 특징적인 이미지를 갖는 인물(외형)과, 그 인물 각각에 대응하는 음성으로 구성될 수 있다. 레코드 1은 모발이 없고 콧수염이 있는 남성이 "안녕하세요?"라고 말하는 음성으로 구성되고, 레코드 3은 앞머리가 있는 여성이 "처음 뵙겠습니다"라고 말하는 음성으로 구성될 수 있다.

또한, 레코드 1 및 레코드 2와 같이, 두 레코드의 인물은 동일한 남성이지만 표정에 따른 두 가지 음성으로 개별적인 레코드를 구성할 수 있다.

이러한 데이터베이스부(100)는 VoxCeleb 등의 기존 코퍼스를 활용하여 구축될 수 있다. VoxCeleb는 영화 배우 등의 이미지와 이에 대응하는 음성 신호가 함께 포함된 공개 데이터 베이스이므로, 본 실시예를 구현하기 위하여 활용될 수 있을 것이다. 물론, 데이터베이스부(100)를 구축하기 위하여 사용자가 다양한 인물 이미지와 이에 대응하는 음성 샘플을 직접 저장할 수도 있고, 인터넷을 통한 스크롤링 작업을 이용할 수도 있다. 데이터베이스부(100)에 저장되는 레코드가 많을수록 사용자가 입력한 캐릭터 이미지에 적합한 음성을 검색하는 것이 효과적으로 이루어 질 수 있다.

합성 정보 수신부(200)는 사용자로부터 음성 합성이 필요한 캐릭터 이미지와 캐릭터 이미지가 음성으로 출력해야 하는 텍스트 정보를 수신할 수 있다. 사용자는 게임 캐릭터를 만드는 사람일 수도 있고, 만들어진 게임에서 자신의 캐릭터를 선택하는 게이머일 수도 있다.

사용자로부터 입력되는 캐릭터 이미지는 실존 인물일 수도 있고, 가상일 수도 있다. 또한, 캐릭터 이미지는 데이터베이스부(100)에 저장되어 있는 외형 이미지 중의 하나일 수도 있지만, 그렇지 않은 경우 역시 본 발명이 적용될 수 있다.

이미지 유사도 판단부(300)는 캐릭터 이미지가 수신되면, 외형 인식(appearance recognition)을 통하여 데이터베이스부(100)에 저장되어 있는 복수의 외형 이미지 중 수신된 캐릭터 이미지와 외형적으로 유사한 외형 이미지를 검색할 수 있다.

외형 인식이란 입력된 이미지가 어떤 사람의 외형인지 인식하는 기술을 의미한다. 이러한 외형 인식은 얼굴 인식, 표정 인식, 의복 인식 등의 이미지 기반 신원 인식 기술들을 포함할 수 있다. 다만, 본 실시예에 따른 이미지 유사도 판단부(300)는 엄밀한 신원 인식을 수행하지 않아도 데이터베이스부(100) 내에서 가장 유사한 외형(얼굴, 표정, 의복 등을 포함한 이미지 정보)을 지닌 다른 이미지를 탐색할 수 있다.

이미지 유사도 판단부(300)는 캐릭터 이미지의 외형과 가장 유사한 레코드를 탐색할 수 있고, 이 과정에서는 얼굴 인식, 표정 인식(감정 인식), 의복 인식 등의 이미지 기반 신원 인식 기술을 이용할 수 있다. 외형 인식에 대한 구체적인 알고리즘은 후술된다.

음성 합성부(400)는 사용자에 의하여 입력된 텍스트 정보를 검색된 외형 이미지에 대응하는 음성 샘플로 합성할 수 있다. 음성 합성은 컴퓨터 소프트웨어를 통해 가상의 음성 신호(오디오 스트림 혹은 파일)를 생성하는 기술을 의미하고, 음성 합성부(400)는 이러한 기술을 이용하여 사용자가 입력한 텍스트 정보를 음성 샘플로 합성하여 출력한다.

도 3은 본 발명의 다른 실시예에 따른 음성합성장치의 제어블럭도이다.

본 실시예에 따른 음성합성장치는 데이터베이스부(100), 합성 정보 수신부(200), 이미지 유사도 판단부(300), 음성 합성부(400) 및 사용자 선택 인터페이스부(500)를 포함할 수 있다. 도 3의 데이터베이스부(100), 합성 정보 수신부(200) 및 음성 합성부(400)는 도 1 및 도 2의 실시예와 대동 소이하므로 그 설명은 생략될 수 있다. 본 실시예에서는 이미지 유사도 판단부(300)의 외형 인식에 대하여 더 구체적으로 설명한다.

이미지 유사도 판단부(300)는 얼굴 유사도 판단 알고리즘, 표정 유사도 판단 알고리즘, 감정 유사도 판단 알고리즘 및 의복 유사도 판단 알고리즘 중 적어도 하나를 이용하여 이미지 인식을 수행함으로써, 캐릭터 이미지와 유사한 인식을 갖는 외형 이미지를 검출할 수 있다. 이미지 유사도 판단부(300)는 얼굴 유사도 판단 알고리즘, 표정 유사도 판단 알고리즘, 감정 유사도 판단 알고리즘 및 의복 유사도 판단 알고리즘에 대한 가중치를 조절하여 유사도 점수를 계산할 수 있다.

예를 들어, P 종류의 이미지 기반 신원 인식 기술을 함께 사용하여 외형 인식이 수되하는 경우, 유사도 점수는 아래 수학식 1일 수 있다.

여기서, x는 입력 외형 이미지 또는 이로부터 추출한 특징이 될 수 있고, s_i(x)는 i번째 판단 알고리즘으로 계산한 유사도 점수이고, w_i는 i 번째 판단 알고리즘을 적용하는 가중치에 해당한다.

가중치는 시스템 설계자가 상수로 지정할 수도 있고, 별도의 학습 가능한 파라미터로 설정하여 유사도 점수가 계산될 때마다 최적화할 수도 있다.

가중치는 상황이나 캐릭터 이미지 또는 외형 이미지에 따라 달리 조정될 수 있다. 예를 들어, 전체적인 얼굴 인식이 중요하지 않는 경우 얼굴 유사도 판단 알고리즘에 적용되는 가중치는 낮게 설정될 수 있고, 대신 표정이나 감정 유사도 판단 알고리즘에 적용되는 가중치는 높게 설정될 수 있다. 반대로, 표정이나 감정 혹은 의복은 크게 중요하지 않고 인물의 얼굴 자체를 식별하는 것이 중요한 경우, 얼굴 유사도 판단 알고리즘에 적용되는 가중치가 가장 높게 설정될 수 있을 것이다.

이미지 유사도 판단부(300)는 유사도 점수가 높은 순서에 따라 선택된 기설정된 개수의 외형 이미지를, 즉 외형 인식 결과로 가장 유사도 점수가 높은 k개를 후보군으로 설정할 수 있다.

도 4는 본 발명의 일 실시예에 따른 외형 유사도 판단을 설명하기 위한 도면이다. 도 4에 도시된 바와 같이, 데이터베이스부(100)에는 Ⅰ와 같이 복수의 레코드가 저장되어 있고, 사용자로부터 Ⅱ와 같은 캐릭터 이미지가 입력되면, 이미지 유사도 판단부(300)는 Ⅲ과 같이 유사도 판단을 통하여 유사도가 높은 3개의 후보군을 검색할 수 있다.

캐릭터 이미지가 짧은 모발을 가진 남성인 경우, 모발이 없고 표정이 없는 외형 이미지와는 외형 유사도 점수는 0.7이고, 모발이 없고 화난 표정의 외형 이미지와의 외형 유사도 점수는 0.6이고, 단발 머리의 여성에 대한 외형 이미지와의 외형 유사도 점수는 0.2로 나타난다. 즉, 3개의 후보군 중에서 외형적으로는 가장 유사한 외형 이미지는 유사도 점수가 0.7로 나온 레코드 일 수 있다.

한편, 본 실시예에 따른 음성합성장치는 사용자 선택을 위한 사용자 선택 인터페이스부(500)를 더 포함할 수 있다. 사용자 선택 인터페이스부(500)는 후보군에 속하는 외형 이미지와, 텍스트 정보가 외형 이미지에 대응하는 음성 샘플로 합성된 테스트 음성의 출력을 선택할 수 있는 항목을 포함하는 사용자 선택 인터페이스를 생성한다.

도 5는 본 발명의 일 실시예에 따른 음성합성 테스트를 설명하기 위한 도면이다. 도 5는 상술한 사용자 선택 인터페이스 일 수 있으며, 도시된 인터페이스에는 후보군 중 유사도 점수가 높은 탐색 결과 1 및 탐색 결과 2에 대한 테스트 음성을 선택할 수 있는 "테스트 음성 합성" 항목(①, ②)이 포함되어 있다. .

예를 들어, 사용자가 텍스트 정보로 "누구시죠?"를 입력한 경우, 사용자는 ① 또는 ②의 테스트 음성 합성을 선택함으로써 음성 샘플인 "안녕하세요?" 또는 "일을 그렇게 처리하시면 어떻게 해요?"에 대응하는 "누구세요?"에 대한 음성을 들을 수 있다.

즉, 음성 합성부(400)는 사용자가 항목을 선택하면 입력 받은 합성 발화 내용(텍스트 정보)으로 음성 신호를 합성한다. 이 때, 외형 인식 결과의 각 레코드에 포함된 음성 신호를 참고하여 유사한 목소리의 음성이 합성된다.

한편, 사용자는 각 항목의 테스트 음성을 들은 후, 캐릭터 이미지에 적합하다고 판단되는 최종 음성을 선택할 수 있다. 사용자는 유사도 점수가 가장 높은 외형 이미지에 대응하는 테스트 음성을 최종 음성으로 선택할 수도 있지만, 유사도 점수가 최고가 아닌 외형 이미지를 선택할 수도 있다.

이미지 유사도 판단부(300)는 사용자에 의하여 상기 유사도 점수가 가장 높은 외형 이미지에 대응하는 테스트 음성이 최종 출력 음성으로 선택되지 않은 경우, 수학식 1의 가중치를 변경할 수 있다. 즉, 외형 이미지를 검색하는 과정, 즉 이미지 인식에 사용된 가중치가 최적화 되지 않았다고 판단하고 각 알고리즘에 부여한 가중치를 조정할 수 있다.

이미지 유사도 판단부(300)는 가중치가 조정된 알고리즘으로 추가적인 이미지 인식을 수행할 수 있고, 사용자 선택 인터페이스부(500)는 이를 반영한 사용자 선택 인터페이스를 더 생성할 수도 있다. 사용자는 최적화된 이미지 인식의 결과를 추가적으로 확인할 수 있다.

한편, 본 발명의 일 실시예에 따를 경우, 사용자는 외형 이미지의 감정, 음성 억양, 나이, 성별, 지역 정보 중 적어도 하나에 대한 부가 정보를 추가적으로 입력할 수 있다. 이 때, 이미지 유사도 판단부(300)는 부가 정보를 고려하여 외형 이미지를 검색하고 후보군을 형성할 수 있다. 이 경우에도 음성 합성 결과는 외형 인식 단계에서 선택된 레코드의 숫자와 동일한 K개로 출력될 수 있고, 음성 합성 결과의 순서는 외형 인식 유사도 점수가 높은 순으로 유지될 수 있다.

도 6은 본 발명의 일 실시예에 따른 음성합성방법을 설명하기 위한 제어흐름도이다. 도 6을 참조하여 본 실시예에 따른 음성합성방법을 정리하면 다음과 같다,

우선, 복수의 외형 이미지와 상기 외형 이미지에 대응하는 음성 샘플이 데이터베이스부(100)에 저장된다(610).

데이터베이스부(100)에 저장되는 외형 이미지는 실존 인물이거나 가상의 인물일 수도 있고, 기존의 영화 또는 애니매이션에 등장했던 동물, 식물 및 장치, 로봇, 기기를 포함하는 캐릭터일 수 있다. 외형 이미지 및 이에 대응하는 음성 샘플에는 그 종류나 형태가 지정되지 않으며 되도록 많은 데이터가 수집되는 것이 바람직하다.

음성합성장치로 음성 합성이 필요한 캐릭터 이미지와 캐릭터 이미지가 음성으로 출력해야 하는 텍스트 정보가 수신될 수 있다(620).

텍스트 정보는 캐릭터 이미지가 가장 많이 발화하게 될 텍스트로 설정되는 것이 바람직하며, 또는 한 문장이 입력될 수도 있지만 음성 샘플의 음성 합성 시 사용자의 선택을 돕기 위하여 복수의 문장이 입력될 수도 있다.

이렇게 캐릭터 이미지가 수신되면, 이미지 유사도 판단부(300)는 복수의 알고리즘을 이용하여 이미지 인식을 수행하고, 캐릭터 이미지와 유사한 인식을 갖는 외형 이미지를 검출한다(630).

도 7는 본 발명의 일 실시예에 따른 외형 유사도 판단 방법을 설명하기 위한 제어흐름도이다. 이를 참조하여 이미지 인식 방법을 보다 구체적으로 정리하면 다음과 같다.

이미지 유사도 판단부(300)는 이미지 인식 시 얼굴 유사도 판단 알고리즘, 표정 유사도 판단 알고리즘, 감정 유사도 판단 알고리즘 및 의복 유사도 판단 알고리즘 중 적어도 하나를 이용하여 이미지 인식을 수행할 수 있고, 이 때 각 알고리즘에 적용될 가중치를 조절할 수 있다.

그런 뒤, 이미지 유사도 판단부(300)는 가중치에 기초한 유사도 점수가 높은 순서에 따라 선택된 기설정된 개수의 외형 이미지를 후보군으로 설정할 수 있다(710).

사용자 선택 인터페이스부(500)는 후보군에 속하는 외형 이미지와, 텍스트 정보가 외형 이미지에 대응하는 음성 샘플로 합성된 테스트 음성의 출력을 선택할 수 있는 항목을 포함하는 사용자 선택 인터페이스를 생성하고(720), 음성 합성부(400)는 사용자의 선택에 대응하는 외형 이미지의 음성 샘플로 음성을 합성한다(730).

이미지 유사도 판단부(300)는 사용자에 의하여 유사도 점수가 가장 높은 외형 이미지에 대응하는 테스트 음성이 최종 출력 음성으로 선택되지 않은 경우(740), 이미지 유사도 판단부(300)는 알고리즘에 적용된 가중치를 변경하여 최적은 이미지 인식 알고리즘을 설정할 수 있다(750).

다시 도 6으로 돌아가서, 이렇게 이미지 인식이 완료되면, 음성 합성부(400)는 텍스트 정보를 검색된 외형 이미지에 대응하는 최종 음성 샘플로 합성하게 되고, 사용자는 자신이 원하는 음성을 갖는 외형 이미지를 최종적으로 선택할 수 있다(640).

또한, 본 발명의 일 예에 따르면, 사용자로부터 외형 이미지의 감정, 음성 억양, 나이, 성별, 지역 정보 중 적어도 하나에 대한 부가 정보를 수신하는 단계를 더 포함할 수 있고, 이미지 유사도 판단 단계(630)는 수신된 부가 정보에 기초하여 외형 이미지를 검색할 수 있다.

도 8은 본 발명의 또 다른 실시예에 따른 음성합성장치의 제어블럭도이다.

본 실시예에 따른 음성합성장치는 데이터베이스부(100), 이미지 인식부(301) 및 음성 합성부(400)를 포함할 수 있다.

도시된 바와 같이, 음성합성장치는 도 1 또는 도 2의 음성합성장치과 비교하여 합성 정보 수신부 또는 사용자 인터페이스부를 포함하지 않을 수 있다. 즉, 본 실시예에 따른 음성합성장치는 입력된 캐릭터 이미지에 대응하여 적합한 음성을 검출하는 핵심적인 요소만으로 구성될 수 있고, 이를 위한 CPU, 이를 포함하는 칩 또는 모듈로 구현될 수 있다.

데이터베이스부(100)에는 복수의 외형 이미지와 이러한 외형 이미지에 대응하는 음성 샘플이 저장되어 있고, 이미지 인식부(301)는 음성 합성이 필요한 캐릭터 이미지가 수신되면, 얼굴 유사도 판단 알고리즘, 표정 유사도 판단 알고리즘, 감정 유사도 판단 알고리즘 및 의복 유사도 판단 알고리즘 중 적어도 복수의 알고리즘에 가중치를 적용하여 수신된 캐릭터 이미지와 유사한 인식을 갖는 상기 외형 이미지를 검출할 수 있다. 이미지 인식부(301)는 앞서 기술된 실시예에서의 이미지 유사도 판단부(300)와 실질적으로 동일한 기능할 수 있다.

음성 합성부(400)는 이미지 인식부(301)에서 인식된 외형이 유사한 이미지에 대응하는 음성 샘플로 사용자가 원하는 텍스트를 출력할 수 있다.

또한, 본 실시예에 따른 이미지 인식부(301)는 사용자로부터 수신한 외형 이미지의 감정, 음성 억양, 나이, 성별, 지역 정보 중 적어도 하나에 대한 부가 정보에 기초하여 외형 이미지를 검색할 수도 있다.

데이터베이스부(100), 이미지 인식부(301) 및 음성 합성부(400)은 상술한 실시예의 구성요소와 대동 소이하므로 중복된 설명은 생략한다.

상술한 바와 같이, 본 발명에 따른 음성합성장치를 통해 멀티미디어(게임, 애니메이션 등) 콘텐츠 개발사의 캐릭터 음성 녹음 비용을 절감할 수 있다. 게임 캐릭터 등의 얼굴(혹은 몸체까지의) 이미지를 입력 받아, 그 캐릭터의 외형에 어울리는 음색의 목소리로 음성을 합성할 수 있기 때문에 전문 성우의 녹음 과정을 대체하거나, 전문 성우에게 어떻게 연기해야 하는지 가이드 라인을 명확히 제공할 수 있다. 성우에게 가이드 라인을 제공하는 경우, 음성 녹음에 따른 시간을 단축할 수 있다.

또한, 본 발명에 따른 음성합성장치를 통해 게임 캐릭터의 음성 커스터마이징 자유도와 편의성을 증가시킬 수 있다. 캐릭터 커스터마이징을 제공하는 기존 게임들에서는 캐릭터의 음성을 기존에 녹음된 몇 가지 목소리 중에서만 선택 가능하였고, 다양한 목소리 중에서 현재 지정한 캐릭터의 외형에 어울리는 것을 플레이어가 직접 들어보고 선택하는 과정이 필요했다. 본 발명에 따를 경우, 플레이어가 캐릭터의 외형을 커스터마이징하는 과정에서 실시간으로 그에 어울리는 목소리의 음성을 자동 합성 및 선택할 수 있으므로 자유도 및 편의성이 증대될 것이다.

정리하면, 본 발명의 음성합성장치에 따르면 저렴한 비용으로 빠르게 음성을 합성할 수 있으므로, 게임 또는 캐릭터 개발에 따른 속도를 개선하고 비용을 절감할 수 있는 장점이 있다. 이러한 음성합성장치는 게임, 영화등의 상업용 콘텐츠 제작 및/또는 구동 과정에서 이용될 수 있고, 다양한 시장에서 구현 가능성이 높을 것으로 예상된다.

도 9는 본 발명의 실시예에 따른, 컴퓨팅 장치를 나타내는 도면이다. 도 9의 컴퓨팅 장치(TN100)는 본 명세서에서 기술된 장치(예, 음성합성장치 등) 일 수 있다.

컴퓨팅 장치(TN100)는 적어도 하나의 프로세서(TN110), 송수신 장치(TN120), 및 메모리(TN130)를 포함할 수 있다. 또한, 컴퓨팅 장치(TN100)는 저장 장치(TN140), 입력 인터페이스 장치(TN150), 출력 인터페이스 장치(TN160) 등을 더 포함할 수 있다. 컴퓨팅 장치(TN100)에 포함된 구성 요소들은 버스(bus)(TN170)에 의해 연결되어 서로 통신을 수행할 수 있다.

프로세서(TN110)는 메모리(TN130) 및 저장 장치(TN140) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(TN110)는 중앙 처리 장치(CPU: central processing unit), 그래픽 처리 장치(GPU: graphics processing unit), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 프로세서(TN110)는 본 발명의 실시예와 관련하여 기술된 절차, 기능, 및 방법 등을 구현하도록 구성될 수 있다. 프로세서(TN110)는 컴퓨팅 장치(TN100)의 각 구성 요소를 제어할 수 있다.

메모리(TN130) 및 저장 장치(TN140) 각각은 프로세서(TN110)의 동작과 관련된 다양한 정보를 저장할 수 있다. 메모리(TN130) 및 저장 장치(TN140) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(TN130)는 읽기 전용 메모리(ROM: read only memory) 및 랜덤 액세스 메모리(RAM: random access memory) 중에서 적어도 하나로 구성될 수 있다.

송수신 장치(TN120)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다. 송수신 장치(TN120)는 네트워크에 연결되어 통신을 수행할 수 있다.

한편, 본 발명의 실시예는 지금까지 설명한 장치 및/또는 방법을 통해서만 구현되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 상술한 실시예의 기재로부터 본 발명이 속하는 기술 분야의 통상의 기술자라면 쉽게 구현할 수 있는 것이다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 통상의 기술자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

외형 이미지를 고려한 음성합성장치에 있어서,
복수의 외형 이미지와 상기 외형 이미지에 대응하는 음성 샘플을 저장하고 있는 데이터 베이스부와;
음성 합성이 필요한 캐릭터 이미지와 상기 캐릭터 이미지가 음성으로 출력해야 하는 텍스트 정보를 수신하는 합성 정보 수신부와;
상기 캐릭터 이미지가 수신되면, 상기 복수의 외형 이미지 중 상기 캐릭터 이미지와 외형적으로 유사한 외형 이미지를 검색하는 이미지 유사도 판단부와; 및
상기 텍스트 정보를 상기 검색된 외형 이미지에 대응하는 음성 샘플로 합성하는 음성 합성부;를 포함하고,
상기 이미지 유사도 판단부는,
얼굴 유사도 판단 알고리즘, 표정 유사도 판단 알고리즘, 감정 유사도 판단 알고리즘 및 의복 유사도 판단 알고리즘 중에서, 상기 얼굴 유사도 판단 알고리즘을 이용하여 상기 복수의 외형 이미지 중 상기 캐릭터 이미지와 외형적으로 유사한 외형 이미지를 검색하며,
상기 이미지 유사도 판단부는,
상기 얼굴 유사도 판단 알고리즘을 이용하여 이미지 인식을 수행하고,
상기 표정 유사도 판단 알고리즘, 상기 감정 유사도 판단 알고리즘 및 상기 의복 유사도 판단 알고리즘 중 적어도 하나를 추가로 이용하여 이미지 인식을 수행함으로써, 상기 캐릭터 이미지와 유사한 인식을 갖는 상기 외형 이미지를 검출하며,
상기 이미지 유사도 판단부는,
상기 얼굴 유사도 판단 알고리즘, 상기 표정 유사도 판단 알고리즘, 상기 감정 유사도 판단 알고리즘 및 상기 의복 유사도 판단 알고리즘에 대한 가중치를 조절하여 유사도 점수를 계산하며,
상기 유사도 점수는 아래의 수학식 1과 같고,
[수학식 1]

{x: 외형 이미지, s_i(x): i번째 판단 알고리즘으로 계산한 유사도 점수, w_i: i 번째 판단 알고리즘을 적용하는 가중치}
상기 이미지 유사도 판단부는 상기 유사도 점수가 높은 순서에 따라 선택된 기설정된 개수의 외형 이미지를 후보군으로 설정하고,
상기 후보군에 속하는 상기 외형 이미지와, 상기 텍스트 정보가 상기 외형 이미지에 대응하는 음성 샘플로 합성된 테스트 음성의 출력을 선택할 수 있는 항목을 포함하는 사용자 선택 인터페이스를 생성하는 사용자 인터페이스부를 더 포함하고,
상기 음성 합성부는 사용자의 선택에 따라 상기 테스트 음성을 출력하며,
사용자에 의하여 상기 유사도 점수가 가장 높은 외형 이미지에 대응하는 테스트 음성이 최종 출력 음성으로 선택되지 않은 경우에,
상기 이미지 유사도 판단부는 상기 가중치를 변경하고,
상기 이미지 유사도 판단부는 상기 가중치가 조정된 알고리즘으로 추가적인 이미지 인식을 수행하며, 추가적으로 수행된 이미지 인식이 반영된 사용자 선택 인터페이스를 더 생성하며,
사용자에 의하여 상기 유사도 점수가 가장 높은 외형 이미지에 대응하는 테스트 음성이 최종 출력 음성으로 선택되면, 상기 이미지 유사도 판단부에 의한 상기 가중치 변경이 배제된 상태에서 상기 음성 합성부는 상기 텍스트 정보를 상기 검색된 외형 이미지에 대응하는 음성 샘플로 합성하는
음성합성장치.
삭제
삭제
삭제
삭제
제1항에 있어서,
상기 외형 이미지는 동일 인물에 대한 이미지에 대하여 표정, 감정 또는 의복 중 적어도 하나가 상이하면, 서로 다른 외형 이미지로 저장되는
음성합성장치.
제1항에 있어서,
상기 이미지 유사도 판단부는 사용자로부터 수신한 외형 이미지의 감정, 음성 억양, 나이, 성별, 지역 정보 중 적어도 하나에 대한 부가 정보에 기초하여 외형 이미지를 검색하는
음성합성장치.
외형 이미지를 고려한 음성합성방법에 있어서,
복수의 외형 이미지와 상기 외형 이미지에 대응하는 음성 샘플을 저장하는 단계와;
음성 합성이 필요한 캐릭터 이미지와 상기 캐릭터 이미지가 음성으로 출력해야 하는 텍스트 정보를 수신하는 단계와;
상기 캐릭터 이미지가 수신되면, 얼굴 유사도 판단 알고리즘, 표정 유사도 판단 알고리즘, 감정 유사도 판단 알고리즘 및 의복 유사도 판단 알고리즘 중에서, 상기 얼굴 유사도 판단 알고리즘을 이용하여 상기 복수의 외형 이미지 중 상기 캐릭터 이미지와 외형적으로 유사한 외형 이미지를 검색하는 이미지 유사도 판단 단계와; 및
상기 텍스트 정보를 상기 검색된 외형 이미지에 대응하는 음성 샘플로 합성하는 단계를 포함하고,
상기 이미지 유사도 판단 단계는,
상기 얼굴 유사도 판단 알고리즘을 이용하여 이미지 인식을 수행하고,
상기 표정 유사도 판단 알고리즘, 상기 감정 유사도 판단 알고리즘 및 상기 의복 유사도 판단 알고리즘 중 적어도 하나를 추가로 이용하여 이미지 인식을 수행함으로써, 상기 캐릭터 이미지와 유사한 인식을 갖는 상기 외형 이미지를 검출하며,
상기 이미지 유사도 판단 단계는,
상기 얼굴 유사도 판단 알고리즘, 상기 표정 유사도 판단 알고리즘, 상기 감정 유사도 판단 알고리즘 및 상기 의복 유사도 판단 알고리즘에 대한 가중치를 조절하여 유사도 점수를 계산하는 단계를 포함하며,
상기 유사도 점수는 아래의 수학식 1과 같고,
[수학식 1]

{x: 외형 이미지, s_i(x): i번째 판단 알고리즘으로 계산한 유사도 점수, w_i: i 번째 판단 알고리즘을 적용하는 가중치}
상기 이미지 유사도 판단 단계는,
상기 유사도 점수가 높은 순서에 따라 선택된 기설정된 개수의 외형 이미지를 후보군으로 설정하는 단계와;
상기 후보군에 속하는 상기 외형 이미지와, 상기 텍스트 정보가 상기 외형 이미지에 대응하는 음성 샘플로 합성된 테스트 음성의 출력을 선택할 수 있는 항목을 포함하는 사용자 선택 인터페이스를 생성하는 단계와;
사용자의 선택에 따라 상기 테스트 음성을 출력하는 단계를 더 포함하고,
상기 이미지 유사도 판단 단계는,
사용자에 의하여 상기 유사도 점수가 가장 높은 외형 이미지에 대응하는 테스트 음성이 최종 출력 음성으로 선택되지 않은 경우에, 상기 가중치를 변경하는 단계를 더 포함하고,
상기 가중치가 조정된 알고리즘으로 추가적인 이미지 인식을 수행하며, 추가적으로 수행된 이미지 인식이 반영된 사용자 선택 인터페이스를 더 생성하며,
사용자에 의하여 상기 유사도 점수가 가장 높은 외형 이미지에 대응하는 테스트 음성이 최종 출력 음성으로 선택된 경우에, 상기 가중치를 변경하는 단계를 건너뛰고 상기 테스트 음성을 출력하는 단계로 넘어가는 음성합성방법.
삭제
삭제
삭제
삭제
제8항에 있어서,
사용자로부터 외형 이미지의 감정, 음성 억양, 나이, 성별, 지역 정보 중 적어도 하나에 대한 부가 정보를 수신하는 단계를 더 포함하고,
상기 이미지 유사도 판단 단계는, 상기 부가 정보에 기초하여 외형 이미지를 검색하는
음성합성방법.
삭제
삭제