KR101181785B1

KR101181785B1 - 미디어 처리 서버 장치 및 미디어 처리 방법

Info

Publication number: KR101181785B1
Application number: KR1020107022310A
Authority: KR
Inventors: 신이치 이소베; 마사미 야부사키
Original assignee: 가부시키가이샤 엔.티.티.도코모
Priority date: 2008-04-08
Filing date: 2009-04-02
Publication date: 2012-09-11
Also published as: KR20100135782A; EP2267696A4; WO2009125710A1; US20110093272A1; EP2267696A1; CN101981614B; JPWO2009125710A1; CN101981614A

Abstract

미디어 처리 서버 장치는, 사용자 식별자와 관련시켜, 음성 합성용 데이터를 감정마다 분류하여 기억하는 음성 합성용 데이터 기억부와, 메시지 서버 장치로부터 수신한 텍스트 메시지로부터 텍스트의 감정을 판정하는 텍스트 해석부와, 판정한 감정에 대응하면서, 또한 텍스트 메시지의 송신자인 사용자의 사용자 식별자와 관련된 음성 합성용 데이터를 사용하여 텍스트에 대한 음성을 합성하여 감정 표현 부가 음성 데이터를 생성하는 음성 데이터 합성부를 구비한다.

Description

미디어 처리 서버 장치 및 미디어 처리 방법{MEDIA PROCESS SERVER APPARATUS AND MEDIA PROCESS METHOD THEREFOR}

본 발명은, 텍스트 데이터에 기초하여 음성 메시지를 합성하는 것이 가능한 미디어 처리 서버 장치 및 미디어 처리 방법에 관한 것이다.

정보 처리 기술 및 통신 기술의 고도화에 의해, 전자 메일로 대표되는 텍스트를 사용한 메시지 통신이 널리 이용되고 있다. 이와 같은 텍스트를 사용한 메시지 통신으로서는, 메시지 중에 그림 문자(graphical emoticons)나 복수개의 문자의 조합에 의한 얼굴 문자(text emoticons or face marks)를 사용함으로써, 메시지의 내용을 보다 더 감정이 풍부하게 표현할 수 있게 된다.

또한, 종래 기술로서, 전자 메일에 포함되는 메시지를, 발신자 본인의 목소리로 감정이 표현되도록 낭독하는 기능을 가지는 단말기 장치가 알려져 있다(예, 특허 문헌 1 참조).

특허 문헌 1에 기재된 단말기 장치는, 통화중에 얻어진 음성 데이터로부터 얻어지는 음성 특징 데이터를, 감정별로 분류하여 전화 번호나 메일 주소에 대응시켜 기억해 둔다. 또한, 이 기억되어 있는 통신 상대로부터의 메시지를 수신했을 때, 상기 메시지에 포함되는 텍스트 데이터가 어떤 감정인가를 판정하여, 메일 주소와 대응한 음성 특징 데이터를 사용하여 음성을 합성하여 낭독한다.

일본 특허 제3806030호 공보

그러나, 상기 종래의 단말기 장치에서는, 메모리 용량 등의 제한에 의해, 음성 특징 데이터를 등록할 수 있는 통신 상대의 수 또는 통신 상대의 음성 특징 데이터의 등록 수가 한정적이어서, 합성되는 감정 표현의 변화가 적어져 합성의 정밀도가 떨어지는 문제가 있었다.

본 발명은, 전술한 사정을 감안하여 이루어진 것으로, 고품질이면서, 또한 감정 표현이 풍부한 음성 메시지를, 텍스트 데이터로부터 합성하는 것이 가능한 미디어 처리 서버 장치 및 미디어 처리 방법을 제공하는 것을 목적으로 한다.

본 발명은, 상기 목적을 달성하기 위하여, 복수개의 통신 단말기 사이에서 송수신되는 텍스트 메시지에 대응하는 음성을 합성함으로써 음성 메시지를 생성할 수 있는 미디어 처리 서버 장치로서, 상기 복수개의 통신 단말기의 각 사용자를 일의적으로 식별하는 사용자 식별자와 관련지어, 음성 합성용 데이터를 감정의 종류별로 분류하여 기억하는 음성 합성용 데이터 기억부와; 상기 복수개의 통신 단말기 중, 제1 통신 단말기로부터 송신된 텍스트 메시지를 수신하면, 수신된 텍스트 메시지의 판정 단위(determination unit)별로, 상기 판정 단위 내의 텍스트로부터 감정 정보를 추출하고, 추출한 감정 정보에 기초하여 감정의 종별을 판정하는 감정 판정부와; 상기 제1 통신 단말기의 사용자를 나타내는 사용자 식별자와 관련된 음성 합성용 데이터 중, 상기 감정 판정부에서 판정한 감정의 종별에 대응하는 음성 합성용 데이터를, 상기 음성 합성용 데이터 기억부로부터 판독하고, 판독된 상기 음성 합성용 데이터를 사용하여, 상기 판정 단위의 텍스트에 대응하는 감정 표현별로 음성 데이터를 합성하는 음성 데이터 합성부를 구비하는 것을 특징으로 하는 미디어 처리 서버 장치를 제공한다.

본 발명에 따른 미디어 처리 서버 장치에 있어서는, 각 사용자별로 감정의 종류별로 분류한 음성 합성용 데이터를 기억하고 있고, 텍스트 메시지의 감정의 종별의 판정 결과에 따라, 상기 텍스트 메시지의 송신자인 사용자의 음성 합성용 데이터를 사용하여 음성 데이터를 합성한다. 따라서, 송신자 본인의 소리를 사용하여, 감정이 들어있는 음성 메시지를 작성하는 것이 가능하게 된다. 또한, 음성 합성용 데이터를 기억하는 기억부를 미디어 처리 서버 장치에 설치하였으므로, 통신 단말기 등의 단말기 장치에 상기 기억부를 설치하는 경우에 비해, 대량의 음성 합성용 데이터를 등록하는 것이 가능하게 된다. 따라서, 음성 합성 데이터를 등록하는 사용자의 수나, 등록 가능한 각 사용자의 음성 합성용 데이터의 수가 증가하므로, 고품질이면서, 또한 감정 표현이 풍부한 음성 메시지를 합성하는 것이 가능하게 된다. 즉, 종래와 같이, 단말기 장치에 음성 합성용 데이터를 등록해 둘 필요가 없어, 단말기 장치의 메모리 용량에 부담을 주지 않는다. 또한, 텍스트 메시지의 감정을 판정하는 기능이나, 음성을 합성하는 기능도 필요 없게 되므로, 단말기 장치의 처리 부하가 경감된다.

본 발명의 바람직한 양태로서, 상기 감정 판정부는, 상기 감정 정보로서, 감정을 복수개의 문자의 조합으로부터 표현한 감정 기호를 추출한 경우에는, 상기 감정 기호에 기초하여 감정의 종별을 판정한다. 감정 기호는, 예를 들면, 얼굴 문자이며, 메시지의 송신자인 통신 단말기의 사용자에 의해 입력된다. 즉, 감정 기호는 사용자가 지정한 감정을 나타낸다. 따라서, 감정 정보로서 감정 기호를 추출하고, 상기 감정 기호에 기초하여 감정의 종별을 판정함으로써, 메시지의 송신자의 감정을 보다 정확하게 반영한 판정 결과를 얻을 수 있게 된다.

본 발명의 다른 바람직한 양태로서, 상기 감정 판정부는, 수신한 상기 텍스트 메시지에, 텍스트에 삽입할 화상이 첨부되어 있는 경우에는, 상기 판정 단위 내의 텍스트에 더하여, 상기 텍스트에 삽입할 화상도 상기 감정 정보의 추출 대상으로 하고, 상기 감정 정보로서, 감정을 그림에 의해 표현한 감정 화상을 추출한 경우에는, 상기 감정 화상에 기초하여 감정의 종별을 판정한다. 감정 화상은, 예를 들면, 그림 문자 화상이며, 메시지의 송신자인 통신 단말기의 사용자의 선택에 의해 입력된다. 즉, 감정 화상은 사용자가 지정한 감정을 나타낸다. 따라서, 감정 정보로서 감정 화상을 추출하고, 상기 감정 화상에 기초하여 감정의 종별을 판정함으로써, 메시지의 송신자의 감정을 보다 정확하게 반영한 판정 결과를 얻는 것이 가능하게 된다.

바람직하게는, 상기 감정 판정부는, 상기 판정 단위 내로부터 추출한 감정 정보가 복수개 있는 경우에는, 복수개의 각각의 감정 정보에 대하여 감정의 종별을 판정하고, 판정한 감정의 종별 중, 가장 출현수가 많은 감정의 종별을 판정 결과로서 선택하도록 해도 된다. 이 양태에 의하면, 판정 단위 중에서 가장 강하게 나타난 감정을 선택하는 것이 가능하게 된다.

또는, 상기 감정 판정부는, 상기 텍스트 메시지 내의 상기 판정 단위 내로부터 추출한 감정 정보가 복수개 있는 경우에는, 상기 판정 단위의 종점에 가장 가까운 위치에 출현하는 감정 정보에 기초하여 감정의 종별을 판정하도록 해도 된다. 이 양태에 의하면, 메시지의 송신자의 감정 중에서, 메시지의 송신 시점에 더욱 가까운 감정을 선택하는 것이 가능하게 된다.

본 발명의 바람직한 양태에 있어서, 상기 음성 합성용 데이터 기억부는, 복수개의 통신 단말기의 각 사용자의 음성 패턴의 특성을 감정의 종별마다 설정하는 파라미터를 더 기억하고, 상기 음성 데이터 합성부는, 합성한 음성 데이터를 상기 파라미터에 기초하여 조정한다. 본 양태에 있어서는, 각 사용자에 대하여 기억된 감정의 종류에 따른 파라미터를 사용하여 음성 데이터를 조정하므로, 사용자의 음성 패턴의 특성에 합치한 음성 데이터가 작성된다. 따라서, 송신자의 사용자의 개인적인 음성의 특징을 반영한 음성 메시지를 작성하는 것이 가능하게 된다.

바람직하게는, 상기 파라미터는, 상기 각 사용자에게 대하여 상기 감정마다 분류하여 기억된 음성 합성용 데이터의 목소리의 크기의 평균값, 속도의 평균값, 운율(韻律)의 평균값, 및 주파수의 평균값 중 적어도 1개로 하도록 해도 된다. 이 경우에는, 음성 데이터를, 각 사용자의 소리의 크기, 이야기하는 속도(템포), 운율(억양, 리듬, 강세)이나, 주파수(소리의 높이) 등에 따라 조정한다. 따라서, 사용자 본인의 목소리 상태에 보다 가까운 음성 메시지를 재현하는 것이 가능하게 된다.

본 발명의 바람직한 양태에 있어서, 상기 음성 데이터 합성부는, 상기 판정 단위 내의 텍스트를 복수개의 합성 단위로 분해하여, 상기 합성 단위마다 상기 음성 데이터의 합성을 실행하고, 상기 음성 데이터 합성부는, 상기 제1 통신 단말기의 사용자를 나타내는 사용자 식별자와 관련된 음성 합성용 데이터에, 상기 감정 판정부에서 판정한 감정에 대응하는 음성 합성용 데이터가 포함되어 있지 않은 경우에는, 상기 합성 단위의 텍스트와 발음이 부분적으로 일치하는 음성 합성용 데이터를, 상기 제1 통신 단말기의 사용자를 나타내는 사용자 식별자와 관련된 음성 합성용 데이터로부터 선택하여 판독한다. 본 발명에 의하면, 음성 합성의 대상인 텍스트의 문자열이 음성 합성용 데이터 기억부에 그대로 기억되어 있지 않은 경우에도, 음성 합성을 행하는 것이 가능하게 된다.

또한, 본 발명은, 복수개의 통신 단말기 사이에서 송수신되는 텍스트 메시지에 대응하는 음성을 합성함으로써 음성 메시지를 생성하는 것이 가능한 미디어 처리 서버 장치에서의 미디어 처리 방법으로서, 상기 미디어 처리 서버 장치는, 상기 복수개의 통신 단말기의 각 사용자를 일의적으로 식별하는 사용자 식별자와 관련시켜서, 음성 합성용 데이터를 감정의 종별마다 분류하여 기억하는 음성 합성용 데이터 기억부를 구비하고 있고, 전술한 방법은, 상기 복수개의 통신 단말기 중, 제1 통신 단말기로부터 송신된 텍스트 메시지를 수신하면, 수신한 텍스트 메시지의 판정 단위마다, 판정 단위 내의 텍스트로부터 감정 정보를 추출하고, 추출한 감정 정보에 기초하여 감정의 종별을 판정하는 판정 단계와, 상기 제1 통신 단말기의 사용자를 나타내는 사용자 식별자와 관련된 음성 합성용 데이터 중, 상기 판정 단계에서 판정한 감정의 종별에 대응하는 음성 합성용 데이터를, 상기 음성 합성용 데이터 기억부로부터 판독하고, 판독한 상기 음성 합성용 데이터를 사용하여, 상기 판정 단위의 텍스트에 대응하는 음성 데이터를 합성하는 합성 단계를 포함하는 것을 특징으로 하는 미디어 처리 방법을 제공한다. 본 발명에 의하면, 상기 미디어 처리 서버 장치와 마찬가지의 효과를 달성할 수 있다.

본 발명에 의하면, 고품질이면서, 또한 감정 표현이 풍부한 음성 메시지를, 텍스트 데이터로부터 합성할 수 있는 미디어 처리 장치 및 미디어 처리 방법을 제공하는 것이 가능하게 된다.

도 1은 본 발명의 일실시예에 따른 미디어 처리 서버 장치를 포함하는 각 감정 표현 부가 음성 합성 메시지 시스템의 간이 구성도이다.
도 2는 본 발명의 일실시예에 따른 통신 단말기의 기능 구성도이다.
도 3은 본 발명의 일실시예에 따른 미디어 처리 서버 장치의 기능 구성도이다.
도 4는 본 발명의 일실시예에 따른 음성 합성용 데이터 기억부에 있어서 관리되는 데이터를 설명하기 위한 도면이다.
도 5는 본 발명의 일실시예에 따른 미디어 처리 방법의 흐름을 설명하기 위한 시퀀스 차트이다.

이하, 도면을 참조하면서 본 발명의 실시예에 대하여 상세하게 설명한다. 그리고, 도면의 설명에 있어서는 동일 요소에는 동일 부호를 부여하고, 중복되는 설명을 생략한다.

도 1에 본 실시예에 따른 미디어 처리 서버 장치를 포함하는 감정 표현 부가 음성 합성 메시지 시스템(이하, 「음성 합성 메시지 시스템」이라고 함)을 나타낸다. 음성 합성 메시지 시스템은, 복수개의 통신 단말기(10)(10a, 10b)와, 각 통신 단말기 사이의 텍스트 메시지의 송수신을 가능하게 하는 메시지 서버 장치(20)와, 통신 단말기와 관련된 미디어 정보를 기억?가공하는 미디어 처리 서버 장치(30)와, 각 장치를 접속하는 네트워크(N)를 구비한다. 그리고, 설명을 간단하게 하기 위하여, 도 1에는 2개의 통신 단말기(10)만을 나타내었으나, 실제로 음성 합성 메시지 시스템은, 다수의 통신 단말기를 포함한다.

네트워크(N)는, 통신 단말기(10)의 접속처이며, 통신 단말기(10)에 대하여 통신 서비스를 제공한다. 예를 들면, 휴대 전화기망이 이에 해당한다.

통신 단말기(10)는, 무선 또는 유선에 의해 중계 장치(도시하지 않음)를 통하여 네트워크(N)에 접속되어 있고, 마찬가지로 중계 장치를 통하여 네트워크(N)에 접속하는 다른 통신 단말기와 통신을 행할 수 있다. 도면에는 도시하지 않았지만, 통신 단말기(10)는, CPU(Central Processing Unit), 주기억장치인 RAM(Random Access Memory) 및 ROM(Read Only Memory), 통신을 행하기 위한 통신 모듈, 및 하드디스크 등의 보조기억장치 등의 하드웨어를 구비하는 컴퓨터로서 구성된다. 이들 구성 요소가 협동함으로써, 후술하는 통신 단말기(10)의 기능이 실현된다.

도 2는, 통신 단말기(10)의 기능 구성도이다. 도 2에 나타낸 바와 같이, 통신 단말기(10)는, 송수신부(101)와, 텍스트 메시지 작성부(102)와, 음성 메시지 재생부(103)와, 입력부(104)와, 표시부(105)를 구비한다.

송수신부(101)는, 텍스트 메시지 작성부(102)로부터 텍스트 메시지를 수신하면, 이것을 네트워크(N)를 통하여 메시지 서버 장치(20)에 송신한다. 여기서, 텍스트 메시지란, 예를 들면, 전자 메일, 채팅 또는 IM(Instant Message)이 이에 해당한다. 또한, 송수신부(101)는 미디어 처리 서버 장치(30)에 있어서 음성 합성된 음성 메시지를 네트워크(N)를 통하여 메시지 서버 장치(20)로부터 수신하면, 이것을 음성 메시지 재생부(103)에 전송한다. 그리고, 텍스트 메시지를 수신하면, 이것을 표시부(105)에 전송한다.

입력부(104)는, 터치 패널이나 키보드가 이에 해당하고, 입력된 문자를 텍스트 메시지 작성부(102)에 송신한다. 또한, 입력부(104)는, 텍스트에 삽입할 그림 문자(graphical emoticon) 화상이 선택에 의해 입력되면, 입력된 그림 문자 화상을 텍스트 메시지 작성부(102)에 송신한다. 그림 문자 화상의 선택 시에는, 통신 단말기(10)의 도시하지 않은 메모리에 기억된 그림 문자 사전이 표시부(105)에 표시되고, 통신 단말기(10)의 사용자는, 입력부(104)를 조작함으로써, 표시된 그림 문자 화상 중에서 원하는 화상을 선택할 수 있다. 이 그림 문자 사전으로서는, 예를 들면, 네트워크(N)의 통신 사업자가 제공하는 고유의 그림 문자 사전이 있다. 「그림 문자 화상」은, 감정을 그림으로 표현한 감정 화상, 및 사상(事象)이나 물건 등을 그림으로 표현한 비감정 화상을 포함한다. 감정 화상으로서는, 얼굴의 표정 변화에 따라 감정을 나타낸 표정 감정 화상이나, 예를 들면, 「분노」를 나타내는 폭탄 화상이나 「기쁨」이나 「호의」를 나타내는 하트 화상과 같이 그림 자체로부터 감정을 추측할 수 있는 비표정 감정 화상이 있다. 비감정 화상으로서는, 날씨를 나타내는 태양 또는 우산의 화상, 스포츠의 종류를 나타내는 볼이나 라켓 등의 화상이 있다.

또한, 입력된 문자는, 문자의 조합(문자열)에 의해 감정을 나타내는 얼굴 문자(감정 기호)를 포함하는 경우가 있다. 얼굴 문자(text emoticon)는, 콤마, 콜론, 하이픈 등의 구두점(punctuation characters), 별표(*, asterisk)나 앳마크(@, at sign) 등의 기호, 및 일부 알파벳(「m」이나 「T」) 등을 조합한 문자열에 의해 감정을 나타낸 것이다. 대표적인 얼굴 문자로서는, 웃는 얼굴(happy face)을 나타내는 「:)」(콜론이 눈, 괄호가 입), 화난 얼굴(angry face)을 나타내는 「>:(」, 우는 얼굴(crying face)을 나타내는 「T_T」 등이 있다. 그림 문자의 경우와 마찬가지로, 통신 단말기(10)의 도시하지 않은 메모리에는 얼굴 문자 사전이 기억되어 있고, 통신 단말기(10)의 사용자는, 얼굴 문자 사전으로부터 판독되어 표시부(105)에 표시된 얼굴 문자 중에서, 입력부(104)를 조작함으로써, 원하는 얼굴 문자를 선택할 수 있다.

텍스트 메시지 작성부(102)는, 입력부(104)로부터 입력된 문자 및 얼굴 문자로부터 텍스트 메시지를 작성하고, 이것을 송수신부(101)에 전송한다. 또한, 텍스트에 삽입할 그림 문자 화상이 입력부(104)로부터 입력되어, 텍스트 메시지 작성부(102)에 송신되면, 상기 그림 문자 화상을 첨부 화상으로 하는 텍스트 메시지를 작성하여 송수신부(101)에 전송한다. 이 때, 텍스트 메시지 작성부(102)는, 그림 문자 화상의 삽입 위치를 나타내는 삽입 위치 정보를 생성하고, 텍스트 메시지에 첨부하여 송수신부(101)에 전송한다. 그림 문자 화상이 복수개 첨부되어 있는 경우에는, 각 그림 문자 화상에 대하여, 이 삽입 위치 정보가 생성된다. 여기서, 텍스트 메시지 작성부(102)란, 통신 단말기(10)에 탑재되는, 전자 메일, 채팅, IM의 소프트웨어가 이에 해당한다. 다만, 소프트웨어로 한정되는 것이 아니고, 하드웨어로 구성되어도 된다.

음성 메시지 재생부(103)는, 송수신부(101)로부터 음성 메시지를 수신하면 이것을 재생한다. 여기서, 음성 메시지 재생부(103)란, 음성 인코더, 스피커가 이에 해당한다. 또한, 표시부(105)는, 송수신부(101)로부터 텍스트 메시지를 수신하면 이것을 표시한다. 텍스트 메시지에 그림 문자 화상이 첨부되어 있는 경우에는, 삽입 위치 정보에 의해 지정된 위치에 그림 문자 화상을 삽입한 상태에서, 텍스트 메시지가 표시된다. 표시부(105)는, 예를 들면, LCD(Liquid Crystal Display) 등이며, 수신한 텍스트 메시지 외에, 각종 정보를 표시할 수 있다.

통신 단말기(10)는, 이동 통신 단말기가 그 대표적인 예이지만, 이에 한정되지 않고, 예를 들면, 음성 통화 가능한 퍼스널 컴퓨터나, SIP(Session Initiation Protocol) 전화 등도 적용할 수 있다. 그리고, 본 실시예에서는, 통신 단말기(10)는 이동 통신 단말기인 것으로서 설명한다. 이 경우, 네트워크(N)는 이동 통신망이며, 전술한 중계 장치는 기지국이다.

메시지 서버 장치(20)는, 전자 메일, 채팅, IM용의 어플리케이션 서버 프로그램 등을 실장한 컴퓨터 장치가 이에 해당한다. 메시지 서버 장치(20)는, 통신 단말기(10)로부터 텍스트 메시지를 수신하면, 송신원 통신 단말기(10)가 음성 합성 서비스에 가입하고 있는 경우에는, 수신한 텍스트 메시지를, 미디어 처리 서버 장치(30)에 전송한다. 음성 합성 서비스란, 전자 메일이나 채팅, IM 등에 의해 송신한 텍스트 메시지에 음성 합성을 행하고, 음성 메시지로서 송신처에 분배하는 서비스이며, 계약에 의해 이 서비스에 미리 가입하고 있는 통신 단말기(10)로부터(또는 통신 단말기(10)에) 송신된 메시지에 대해서만 음성 메시지의 작성과 분배가 실행된다.

미디어 처리 서버 장치(30)는, 네트워크(N)에 접속되어 있고, 이 네트워크(N)를 통하여 통신 단말기(10)에 접속된다. 도면에는 도시하지 않았지만, 미디어 처리 서버 장치(30)는, CPU, 주기억장치인 RAM 및 ROM, 통신을 행하기 위한 통신 모듈, 및 하드디스크 등의 보조기억장치 등의 하드웨어를 구비하는 컴퓨터로서 구성된다. 이들 구성 요소가 협동함으로써, 후술하는 미디어 처리 서버 장치(30)의 기능이 실현된다.

도 3에 나타낸 바와 같이, 미디어 처리 서버 장치(30)는, 송수신부(301)와, 텍스트 해석부(302)와, 음성 데이터 합성부(303)와, 음성 메시지 작성부(304)와, 음성 합성용 데이터 기억부(305)를 구비한다.

송수신부(301)는, 메시지 서버 장치(20)로부터 텍스트 메시지를 수신하면, 이것을 텍스트 해석부(302)에 전송한다. 또한, 송수신부(301)는, 음성 메시지 작성부(304)로부터 음성 합성된 메시지를 수신하면, 이것을 메시지 서버 장치(20)에 전송한다.

텍스트 해석부(302)는, 송수신부(301)로부터 텍스트 메시지를 수신하면, 그 문자 또는 문자열이나 첨부 화상으로부터, 텍스트의 내용의 감정을 나타내는 감정 정보를 추출하고, 추출한 감정 정보에 기초하여, 감정의 종류를 추측에 의해 판정한다. 그리고, 음성 합성의 대상으로 되는 텍스트 데이터와 함께 판정한 감정의 종별을 나타내는 정보를 음성 데이터 합성부(303)에 출력한다.

구체적으로는, 텍스트 해석부(302)는, 전자 메일 등에 개별적으로 첨부된 그림 문자 화상이나, 얼굴 문자(감정 기호)로부터 감정을 판단한다. 또한, 텍스트 해석부(302)는, 「즐거움」, 「슬픔」, 「기쁨」 등의 감정을 표현하는 단어로부터도, 그 텍스트의 감정의 종별을 인식한다.

더욱 상세하게는, 텍스트 해석부(302)는, 판정 단위마다 텍스트의 감정의 종별을 판정한다. 본 실시예에서는, 텍스트 메시지에서의 텍스트 중의 구두점(문장의 마지막을 나타내는 종지부. 일본어의 경우에는 「。」, 영어의 경우에는 피리어드 「.」) 또는 공백을 검출함으로써 구두점 또는 공백마다 텍스트를 구분하여, 이 판정 단위로 한다.

다음으로, 텍스트 해석부(302)는, 전술한 판정 단위 내에 출현한 그림 문자 화상, 얼굴 문자, 단어로부터 그 판정 단위를 표현하는 감정을 나타내는 감정 정보를 추출하여 감정 판정을 행한다. 구체적으로는, 텍스트 해석부(302)는, 상기 감정 정보로서, 그림 문자 화상 속에서는 감정 화상, 전체 얼굴 문자, 및 감정을 나타내는 단어를 추출한다. 그러므로, 미디어 처리 서버 장치(30)의 도시하지 않은 메모리에는, 그림 문자 사전, 얼굴 문자 사전, 및 감정을 나타내는 단어의 사전이 기억되어 있다. 각 얼굴 문자 사전 및 그림 문자 사전에는, 얼굴 문자와 그림 문자 각각에 대하여 대응하는 단어의 문자열이 기억되어 있다.

얼굴 문자나 그림 문자 화상에서는 매우 다양한 종류의 감정의 감정 표현이 가능하므로, 문장으로 표현하는 것보다도, 얼굴 문자나 그림 문자 화상 쪽이 간단하면서도, 또한 정확하게 감정을 표현할 수 있는 경우가 많다. 그러므로, 특히 전자 메일(특히 휴대 전화기의 전자 메일)이나 채팅, IM 등의 텍스트 메시지의 송신자는, 얼굴 문자나 그림 문자 화상에 의존하여 자신의 감정을 표현하는 경향이 있다. 본 실시예에서는, 전자 메일이나 채팅, IM 등의 텍스트 메시지의 감정 판정을 행할 때, 얼굴 문자나 그림 문자 화상을 사용하는 구성으로 하였으므로, 메시지의 송신자 스스로가 지정한 감정 그 자체에 기초하여 감정을 판정하게 된다. 따라서, 문장에 포함되는 단어만으로 감정 판정을 행하는 경우에 비해, 메시지의 송신자의 감정을 보다 정확하게 반영한 판정 결과를 얻을 수 있다.

하나의 판정 단위 중에 복수개의 감정 정보가 출현한 경우에는, 텍스트 해석부(302)는, 각 감정 정보에 대하여 감정의 종별을 판정한 후, 판정한 감정의 종별의 출현수를 카운트하여 가장 많은 감정을 선택하거나, 판정 단위의 말미 또는 판정 단위의 종점에 가장 가까운 위치에 출현하는 그림 문자, 얼굴 문자, 또는 단어의 감정을 선택하도록 구성해도 된다.

그리고, 판정 단위를 구분하는 방법으로서는, 텍스트가 기록되어 있는 언어의 특성에 따라 판정 단위의 구분을 전환하여 적절하게 설정하는 것이 좋다. 또한, 감정 정보로서 추출하는 단어에 대해서도, 언어에 따라 적절하게 설정하는 것이 좋다.

이상과 같이, 텍스트 해석부(302)는, 수신한 텍스트 메시지의 판정 단위마다, 상기 판정 단위 내의 텍스트로부터 감정 정보를 추출하고, 추출한 감정 정보에 기초하여 감정의 종별을 판정하는 감정 판정부로서 기능한다.

또한, 텍스트 해석부(302)는, 판정 단위로 구분한 텍스트에 형태소 해석 (morphological analysis) 등을 행함으로써, 더욱 짧은 합성 단위로 구분한다. 합성 단위는, 음성 합성 처리(speech synthesis processing or text-to-speech processing) 시의 기준 단위이다. 텍스트 해석부(302)는, 판정 단위 내의 텍스트를 나타내는 텍스트 데이터를, 합성 단위로 분할한 후에, 판정 단위 전체의 감정 판정의 결과를 나타내는 정보와 함께 음성 데이터 합성부(303)에 송신한다. 그리고, 판정 단위의 텍스트 데이터에 얼굴 문자가 포함되어 있는 경우에는, 상기 얼굴 문자를 구성하는 문자열을, 대응하는 단어의 문자열로 치환한 후에 하나의 합성 단위로 하여 음성 데이터 합성부(303)에 송신한다. 또한, 마찬가지로, 그림 문자 화상이 포함되어 있는 경우에도, 상기 그림 문자 화상을, 대응하는 단어의 문자열로 치환한 후에 하나의 합성 단위로 하여 음성 데이터 합성부(303)에 송신한다. 이들 치환은, 메모리에 기억되어 있는 얼굴 문자 사전 및 그림 문자 사전을 참조함으로써 실행된다.

텍스트 메시지에는, 그림 문자 화상이나 얼굴 문자가 문장의 필수적인 구성 요소로 되어 있는 경우(예를 들면, 「오늘은 [비를 나타내는 그림 문자]입니다.」)와, 어느 단어의 문자열의 직후에 같은 의미의 그림 문자나 얼굴 문자가 삽입되어 있는 경우(예를 들면, 「오늘은 비[비를 나타내는 그림 문자]입니다.」)가 있다. 후자의 경우에는, 상기 치환했을 때, 「비」의 문자열의 후에 「비」에 대응하는 그림 문자 화상에 대응하는 문자열이 삽입된다. 그러므로, 연속하는 2개의 합성 단위의 문자열이 동일하거나 또는 거의 동일한 경우에는, 한쪽을 삭제하고, 음성 데이터 합성부(303)에 송신하도록 해도 된다. 또는, 그림 문자 화상 또는 얼굴 문자를 포함하는 판정 단위 내에, 상기 그림 문자 화상 또는 얼굴 문자와 동일한 의미를 가지는 단어가 포함되어 있는지의 여부를 탐색하고, 포함되어 있는 경우에는 그림 문자 또는 얼굴 문자를 문자열로 치환하지 않고 삭제하도록 해도 된다.

음성 데이터 합성부(303)는, 음성 합성하는 텍스트 데이터와 함께 그 판정 단위에 해당하는 감정의 종별을 나타내는 정보를 텍스트 해석부(302)로부터 수취한다. 음성 데이터 합성부(303)는, 합성 단위마다, 수취한 텍스트 데이터 및 감정 정보에 기초하여, 감정의 종별에 해당하는 음성 합성용 데이터를, 음성 합성용 데이터 기억부(305) 중의 통신 단말기(10a)용의 데이터로부터 검색하고, 그대로 해당하는 음성이 등록되어 있는 경우에는 그 음성 합성용 데이터를 판독하여 이용한다.

또한, 합성 단위의 텍스트 데이터에 그대로 해당하는 감정의 음성 합성용 데이터가 없는 경우에는, 음성 데이터 합성부(303)는, 비교적 가까운 단어의 음성 합성용 데이터를 판독하여 이것을 이용하여 음성 데이터를 합성한다. 판정 단위 내의 모든 합성 단위의 각 텍스트 데이터에 대하여 음성 합성이 종료하면, 음성 데이터 합성부(303)는, 합성 단위마다의 음성 데이터를 연결하여, 판정 단위 전체의 음성 데이터를 생성한다.

여기서, 비교적 가까운 단어란, 발음이 부분적으로 일치하는 단어이며, 예를 들면, 「즐거웠다(tanoshi-katta)」나 「즐긴다(tanoshi-mu)」에 대한 「즐겁다(tanoshi-i)」가 이에 해당한다. 즉, 「즐겁다(tanoshi-i)」라는 단어에 대응하는 음성 합성용 데이터는 등록되어 있지만, 「즐거웠다(tanoshi-katta)」나 「즐긴다(tanoshi-mu)」와 같이 일본어의 활용 어미가 변화된 형태의 단어에 대응하는 음성 합성용 데이터가 등록되어 있지 않다고 판단되었을 경우에는, 즐거웠다(tanoshi-katta)」 또는 「즐긴다(tanoshi-mu)」의 어간인 「즐겁(たのし)(tanoshi-)」에 대해서는 등록된 음성 합성용 데이터를 인용하고, 「즐거웠다(tanoshi-katta)」의 「웠다(かっつた)(-katta)」나 「즐긴다(tanoshi-mu)」의 「-mu」를, 같은 감정의 종별의 다른 단어로부터 인용하여, 「즐거웠다(tanoshi-katta)」 또는 「즐긴다(tanoshi-mu)」라는 말을 합성한다. 그림 문자나 얼굴 문자의 경우에도, 대응하는 문자열이 등록되어 있지 않은 경우에는, 마찬가지로 비교적 가까운 단어를 인용하여 음성 데이터를 합성할 수 있다.

도 4는, 음성 합성용 데이터 기억부(305)에서 관리되는 데이터를 나타낸다. 데이터는, 통신 단말기 ID, 전자 메일의 어드레스, 채팅의 ID, 또는 IM의 ID 등의 사용자 식별자와 관련되어, 사용자마다 관리된다. 도 4의 예에서는, 사용자 식별자로서 통신 단말기 ID가 사용되고 있고, 통신 단말기(10a)용 데이터(3051)가 예로서 표시되어 있다. 통신 단말기(10a)용 데이터(3051)는, 통신 단말기(10a)의 사용자 본인 소리의 음성 데이터이며, 도시한 바와 같이, 감정마다 분류하지 않고 등록되어 있는 음성 데이터(3051a)와 감정마다의 데이터 부분(3051b)로 나누어져 관리된다. 각 감정의 데이터 부분(3051b)은, 감정별로 분류된 음성 데이터(3052)와 각 감정별의 파라미터(3053)를 가진다.

감정별로 분류하지 않고 등록되어 있는 음성 데이터(3051a)는, 등록된 음성 데이터를 소정의 구분 단위(예를 들면, 문절(文節))로 구분하고, 특별히 감정을 구별하지 않고 등록된 음성 데이터이다. 감정별의 데이터 부분에 등록되어 있는 음성 데이터(3051b)는, 등록된 음성 데이터를 소정의 구분 단위로 구분하여, 감정의 종별마다 분류하여 등록된 음성 데이터이다. 그리고, 음성 합성 서비스의 대상으로 되는 언어가 일본어 이외의 언어의 경우에는, 문절 대신, 그 언어에 적합한 구분 단위를 적절하게 사용하여 음성 데이터를 등록해 두는 것이 좋다.

음성 데이터의 등록은, 음성 합성 서비스에 가입하고 있는 통신 단말기(10)에 대하여, (i) 통신 단말기(10)와 미디어 처리 서버(30)와 네트워크(N)를 통하여 접속된 상태에서, 사용자가 통신 단말기(10)를 향해 음성을 발하여 미디어 처리 서버 장치(30)에 녹음하는 방법, (ii) 통신 단말기(10) 사이의 통화 내용을 복제하여, 미디어 처리 서버(30)에 기억시키는 방법, (iii) 음성 인식 게임에 있어서 사용자가 음성 입력한 단어를 통신 단말기(10)에서 기억하고, 게임 종료 후에 네트워크를 통하여 미디어 처리 서버(30)에 전송하여 기억하는 방법 등을 고려할 수 있다.

음성 데이터의 분류는, (i) 미디어 처리 서버 장치(30)에 사용자마다 각 감정의 기억 영역을 형성해 두고, 통신 단말기(10)로부터 수신하는 감정의 분류의 지시에 따라, 해당하는 감정의 기억 영역에, 분류의 지시 이후에 발해진 음성의 데이터를 등록하는 방법, (ii) 감정별로 분류하기 위한 텍스트 정보에 의한 사전을 미리 준비해 두고, 서버가 음성 인식을 실행하고, 각 감정에 해당하는 단어가 발생한 경우에, 서버로 자동적으로 분류하는 방법 등을 고려할 수 있다.

이와 같이, 본 실시예에 있어서는, 음성 합성용 데이터를 미디어 처리 서버 장치(30)에 기억시키기 위하여, 데이터 메모리 용량 등에 제한이 있는 통신 단말기(10)에 음성 합성용 데이터를 기억시키는 경우에 비해, 음성 합성용 데이터로서 기억 가능한 사용자의 수 또는 사용자당 음성 합성용 데이터의 등록 수를 증가시킬 수 있다. 따라서, 합성되는 감정 표현의 변화가 증가하고, 합성 정밀도가 향상된다. 즉, 더욱 고품질의 음성 합성 데이터를 생성하는 것이 가능하게 된다.

또한, 종래의 단말기 장치에서는, 음성 통화 시에, 통화 상대의 음성 특징 데이터(음성 합성용 데이터)를 학습하여 등록하기 위하여, 전자 메일의 송신자 본인의 소리를 사용하여 음성 합성하는 것이 가능한 메시지는, 단말기 장치의 사용자가 그 발신자와 음성으로 통화한 적이 있는 경우로 한정되어 있었다. 그러나, 본 실시예에 의하면, 텍스트 메시지의 수취 측의 통신 단말기(10)(예를 들면, 통신 단말기(10b))가, 메시지를 송신한 통신 단말기(10)(예를 들면, 통신 단말기(10a))와 실제로 음성 통화한 적이 없는 경우에도, 미디어 처리 서버 장치(30)에 통신 단말기(10a)의 사용자의 음성 합성용 데이터가 기억만 되어 있으면, 통신 단말기(10a)의 사용자 본인의 소리를 사용하여 합성된 음성 메시지를 수취할 수 있다.

감정별 데이터 부분(3051b)은, 또한 감정별로 분류된 음성 데이터(3052)와, 감정별로 등록되어 있는 음성 데이터의 평균적인 파라미터(3053)를 가진다. 각 감정의 데이터 부분(3052)은, 감정별로 분류하지 않고 등록되어 있는 음성 데이터가 감정별로 분류되어 저장된 데이터이다.

그리고, 본 실시예에서는, 1개의 데이터가 감정에 의한 분류의 유무에 의해 중복되어 등록된다. 따라서, 실제 음성 데이터는 등록된 음성 데이터(3051a)의 영역에 등록해 두고, 감정별 데이터 영역(3051b)에서는, 등록된 음성 데이터의 텍스트 정보와 실제로 등록되어 있는 음성 데이터의 영역으로의 포인터(어드레스, 번지) 등을 기억해 둘 수 있다. 보다 구체적으로는, 「즐겁다」라는 음성 데이터가, 등록된 음성 데이터(3051a)의 영역의 어드레스 100번지에 저장되어 있다고 하면, 감정별 데이터 영역(3051b)에서는, 「즐거움의 데이터」영역 중에 「즐겁다」라는 텍스트 정보를 기억하고, 그 실제의 음성 데이터의 저장소인 100번지의 어드레스를 기억해 두도록 구성해도 된다.

파라미터(3053)에는, 통신 단말기(10a)의 사용자에 대하여, 해당하는 감정에 대응하는 음성 패턴(말투)을 표현하기 위한 파라미터로서, 소리의 크기, 목소리의 속도(tempo), 운율(prosody, rhythm), 소리의 주파수 등이 설정되어 있다.

음성 데이터 합성부(303)는, 판정 단위의 음성 합성이 종료하면, 음성 합성용 데이터 기억부(305)에 기억된, 해당하는 감정의 파라미터(3053)에 기초하여, 합성된 음성 데이터를 조정(가공)한다. 최종적으로 합성된, 판정 단위의 음성 데이터는 다시 각 감정의 파라미터와 조합하여, 전체적으로, 등록되어 있는 파라미터에 따른 음성 데이터로 되어 있는지의 여부를 확인한다.

전술한 확인이 완료하면, 음성 데이터 합성부(303)는, 합성한 음성 데이터를 음성 메시지 작성부(304)에 송신한다. 이하 텍스트 해석부(302)로부터 수취하는 판정 단위별 텍스트 데이터에 대하여 전술한 동작을 반복한다.

각 감정의 파라미터는, 이동 통신 단말기(10)의 각 사용자의 음성 패턴으로서, 각 감정의 종별마다 설정되어 있고, 도 4의 파라미터(3053)에 나타낸 바와 같이, 소리의 크기, 속도, 운율, 주파수 등이 이에 해당한다. 또한, 각 감정의 파라미터를 참조하여 합성된 음성을 조정하는 것은, 운율, 목소리의 속도 등을 예로 들면, 그 감정의 평균적인 파라미터로 조정하는 것을 말한다. 음성 합성 시에는, 해당하는 감정 중에서 단어를 선택하고 음성을 합성하기 위하여, 합성된 음성과 음성의 이음매에 위화감을 느끼는 경우가 있다. 따라서, 운율, 목소리의 속도 등을 예로 들면, 그 감정의 평균적인 파라미터로 조정함으로써 합성된 음성과 음성의 이음매에서의 위화감을 저감시키는 것이 가능하게 된다. 보다 구체적으로는, 각 감정으로 등록되어 있는 음성 데이터로부터 그 음성 데이터의, 목소리의 크기, 속도, 운율, 주파수 등의 평균값을 계산하고, 이것을 각 감정을 나타내는 평균적인 파라미터(도 4의 3053)로서 등록해 둔다. 음성 데이터 합성부(303)는, 이 평균적인 파라미터와 합성된 음성 데이터의 각 값을 비교하여, 크게 차이가 있는 경우에는 보다 평균적인 파라미터에 가까워지도록 합성한 음성을 조정한다. 그리고, 상기 파라미터 중, 운율은, 판정 단위 내의 텍스트에 대응하는 음성 데이터 전체의 목소리의 리듬, 강세(stress), 억양(intonation) 등을 조정하기 위해 사용된다.

음성 메시지 작성부(304)는, 음성 데이터 합성부(303)로부터 합성된 판정 단위별 음성 데이터를 모두 수신하면, 수신한 음성 데이터를 연결하여, 텍스트 메시지에 대응하는 음성 메시지를 작성한다. 작성한 음성 메시지는 송수신부(301)로부터, 메시지 서버 장치(20)에 전송된다. 여기서 음성 데이터를 연결한다는 것은, 예를 들면, 텍스트 메시지 내의 문장이 「xxxx[그림 문자 1] yyyy[그림 문자 2]」와 같이, 2개의 그림 문자가 포함되어 구성되어 있을 때, 그림 문자 1보다 앞의 문장은, 그림 문자 1이 해당하는 감정으로 음성 합성되고, 그림 문자 2보다 앞의 문장은 그림 문자 2가 해당하는 감정으로 음성 합성되고, 최종적으로 각각의 감정으로 합성된 음성 데이터가 1개의 문장의 음성 메시지로서 출력되는 것을 의미한다. 이 경우, 「xxxx[그림 문자 1]」, 「yyyy[그림 문자 2]」는, 전술한 판정 단위에 각각 해당한다.

음성 합성용 데이터 기억부(305)에 기억되어 있는 데이터는, 음성 합성 데이터를 작성하기 위하여, 음성 데이터 합성부(303)에 의해 이용된다. 즉, 음성 합성용 데이터 기억부(305)는, 음성 데이터 합성부(303)에 음성 합성용 데이터 및 파라미터를 제공한다.

계속하여, 도 5를 참조하여, 본 실시예의 음성 합성 메시지 시스템에서의 처리를 설명한다. 이 처리는, 통신 단말기(10a)(제1 통신 단말기)로부터 통신 단말기(10b)(제2 통신 단말기)에 텍스트 메시지가 메시지 서버 장치(20)를 통하여 송신되는 과정에 있어서, 미디어 처리 서버 장치(30)가 텍스트 메시지에 대응하는 감정 표현 부가 음성 메시지를 합성하여 음성 메시지로서 통신 단말기(10b)에 송신될 때까지의 처리를 나타낸다.

통신 단말기(10a)는, 통신 단말기(10b)용으로 텍스트 메시지를 작성한다(S1). 텍스트 메시지의 예로서는 IM, 전자 메일, 채팅 등이 있다.

통신 단말기(10a)는, 단계 S1에서 작성한 텍스트 메시지를, 메시지 서버 장치(20)에 송신한다(S2).

메시지 서버 장치(20)는, 통신 단말기(10a)로부터 메시지를 수신하면 이것을 미디어 처리 서버 장치에 전송한다(S3). 그리고, 메시지 서버 장치(20)는, 메시지를 수신하면, 먼저, 통신 단말기(10a) 또는 통신 단말기(10b)가 음성 합성 서비스에 가입되어 있는지의 여부를 확인한다. 즉, 메시지 서버 장치(20)에 의해 일단 계약 정보를 확인하고, 음성 합성 서비스에 가입되어 있는 통신 단말기(10)로부터의 또는 통신 단말기(10)로의 메시지인 경우에는, 메시지를 미디어 처리 서버 장치(30)에 전송하고, 그 이외의 경우에는 통상의 텍스트 메시지로서 통신 단말기(10b)에 그대로 전송한다. 텍스트 메시지가 미디어 처리 서버 장치(30)에 전송되지 않는 경우에는, 미디어 처리 서버 장치(30)는 텍스트 메시지의 처리에 관여하지 않고, 텍스트 메시지는, 통상의 전자 메일, 채팅, IM의 송수신과 마찬가지로 처리된다.

미디어 처리 서버 장치(30)는, 메시지 서버 장치(20)로부터 텍스트 메시지를 수신하면, 그 메시지 중의 감정을 판정한다(S4).

미디어 처리 서버 장치(30)는, 수신한 텍스트 메시지를 단계 S4에서 판정된 감정에 따라 음성 합성한다(S5).

미디어 처리 서버 장치(30)는, 음성 합성된 음성 데이터를 작성하면, 메시지 서버 장치(20)로부터 전송된 텍스트 메시지에 대응한 음성 메시지를 작성한다(S6).

미디어 처리 서버 장치(30)는, 음성 메시지를 작성하면, 이것을 메시지 서버 장치(20)에 반송한다(S7). 이 때, 미디어 처리 서버 장치(30)는, 메시지 서버 장치(20)로부터 전송된 텍스트 메시지와 함께 합성한 음성 메시지를 메시지 서버 장치(20)에 반송한다. 구체적으로는, 음성 메시지를 텍스트 메시지의 첨부 파일로서 송신한다.

메시지 서버 장치(20)는, 미디어 처리 서버 장치(30)로부터 음성 메시지를 수신하면, 이것을 텍스트 메시지와 함께 통신 단말기(10b)에 송신한다(S8).

통신 단말기(10b)는, 메시지 서버 장치(20)로부터 음성 메시지를 수신하면, 음성을 재생한다(S9). 수신한 텍스트 메시지는, 전자 메일용 소프트웨어에 의해 표시된다. 그리고, 이 경우, 사용자로부터 지시가 있는 경우에만, 텍스트 메시지를 표시하도록 해도 된다.

변형예:

상기 실시예에서는, 음성 합성용 데이터 기억부(305)에 음성 데이터를 문절별 등으로 구분하여 감정별로 기억시키는 예를 나타냈으나, 이에 한정되지 않고, 예를 들면, 음소(音素)별로 세분화하여 감정별로 기억시키도록 구성해도 된다. 이 경우, 음성 데이터 합성부(303)는, 텍스트 해석부(302)로부터 음성 합성하는 텍스트 데이터와 함께 그 텍스트에 해당하는 감정을 나타내는 정보를 수취하고, 감정에 해당하는 음성 합성용 데이터인 음소를 음성 합성용 데이터 베이스(305) 중에서 판독하고, 이것을 이용하여 음성을 합성하도록 구성해도 된다.

전술한 실시예에서는, 구두점이나 공백에 의해 텍스트를 구분하여 판정 단위로 하고 있었지만, 이에 한정되지 않는다. 예를 들면, 그림 문자나 얼굴 문자는 문장의 최후에 삽입되는 경우가 많다. 그러므로, 그림 문자나 얼굴 문자가 포함되어 있는 경우에는, 그림 문자 또는 얼굴 문자를 문장의 구분으로 간주하여, 판정 단위로 해도 된다. 또한, 그림 문자 또는 얼굴 문자가 단어의 직후 또는 단어 대신 삽입되어 있는 경우도 있으므로, 텍스트 해석부(302)는, 그림 문자 또는 얼굴 문자가 출현한 장소로부터 전방 및 후방에 구두점이 있는 장소까지를 하나의 판정 단위로 할 수도 있다. 또는, 텍스트 메시지 전체를 판정 단위로 할 수도 있다.

또한, 임의의 판정 단위로부터 아무런 감정 정보가 추출되지 않는 경우를 생각할 수 있다. 그 경우에는, 예를 들면, 직전 또는 직후의 판정 단위로 추출된 감정 정보에 기초한 감정 판정의 결과를 사용하여, 텍스트의 음성 합성을 행해도 된다. 또한, 텍스트 메시지 내로부터 감정 정보가 1개만 추출된 경우에는, 그 감정 정보에 기초한 감정 판정의 결과를 사용하여, 텍스트 메시지 전체의 음성 합성을 행해도 된다.

또한, 상기 실시예에서는, 감정 정보로서 추출 대상으로 되는 단어에 특별히 제한은 두지 않았지만, 추출 대상으로 하는 단어의 일람을 미리 준비해 두고, 이 일람에 있는 단어가 판정 단위 내에 포함되어 있는 경우에는, 감정 정보로서 추출해도 된다. 이 방법에 의하면, 한정된 감정 정보만을 추출하여 판정의 대상으로 하므로, 판정 단위 내의 텍스트 전문(全文)에 대하여 감정 판정을 행하는 방법에 비해, 보다 간단하고 용이하게 감정 판정을 행하는 것이 가능하게 된다. 따라서, 감정 판정에 드는 처리 시간을 단축할 수 있고, 음성 메시지의 배신(配信)을 보다 신속하게 행할 수 있다. 또한, 미디어 처리 서버 장치(30)의 처리 부하도 적어지게 된다. 또한, 단어를 감정 정보의 추출 대상으로부터 제외한(즉, 얼굴 문자와 그림 문자 화상만을 감정 정보로서 추출함) 구성으로 하면, 처리 시간이 더욱 단축되고, 처리 부하가 더욱 저감된다.

전술한 실시예에서는, 통신 단말기 ID, 전자 메일의 어드레스, 채팅의 ID, 또는 IM의 ID를 사용자 식별자로서 사용하는 경우에 대하여 설명하였으나, 단일 사용자가 복수개의 통신 단말기 ID나 메일 주소를 가지고 있는 경우가 있다. 그러므로, 사용자를 일의적으로 식별하는 사용자 식별자를 별개로 설치하고, 음성 합성 데이터를 이 사용자 식별자에 대응시켜 관리하도록 해도 된다. 이 경우에는, 통신 단말기 ID, 전자 메일의 어드레스, 채팅의 ID, 또는 IM의 ID 등에 사용자 식별자를 대응시킨 대응표도 병행하여 기억해 두는 것이 좋다.

전술한 실시예에서는, 메시지 서버 장치(20)는, 텍스트 메시지의 송신측 단말기 또는 수신측 단말기가 음성 합성 서비스에 가입하고 있는 경우에만, 수신한 텍스트 메시지를 미디어 처리 서버 장치(30)에 전송하도록 하고 있었지만, 서비스의 계약의 유무에 관계없이, 모든 텍스트 메시지를 미디어 처리 서버 장치(30)에 전송하도록 해도 된다.

10, 10a, 10b: 단말기 101: 송수신부
102: 텍스트 메시지 작성부 103: 음성 메시지 재생부
104: 입력부 105: 표시부
20: 메시지 서버 장치 30: 미디어 처리 서버 장치
301: 송수신부 302: 텍스트 해석부(감정 판정부)
303: 음성 데이터 합성부 304: 음성 메시지 작성부
305: 음성 합성용 데이터 기억부 N: 네트워크

Claims

복수개의 통신 단말기 사이에서 송수신되는 텍스트 메시지에 대응하는 음성을 합성함으로써 음성 메시지를 생성하는 것이 가능한 미디어 처리 서버 장치로서,
상기 복수개의 통신 단말기의 각 사용자를 일의적으로 식별하는 사용자 식별자와 관련하여, 음성 합성용 데이터를 감정의 종별마다 분류하여 기억하는 음성 합성용 데이터 기억부;
상기 복수개의 통신 단말기 중, 제1 통신 단말기로부터 송신된 텍스트 메시지를 수신하면, 수신한 텍스트 메시지의 판정 단위마다, 상기 판정 단위 내의 텍스트로부터 감정 정보를 추출하고, 추출한 감정 정보에 기초하여 감정의 종별을 판정하는 감정 판정부; 및
상기 제1 통신 단말기의 사용자를 나타내는 사용자 식별자와 관련된 음성 합성용 데이터 중, 상기 감정 판정부에서 판정한 감정의 종별에 대응하는 음성 합성용 데이터를, 상기 음성 합성용 데이터 기억부로부터 판독하고, 판독한 상기 음성 합성용 데이터를 사용하여, 상기 판정 단위의 텍스트에 대응하는 감정 표현에 대한 음성 데이터를 합성하는 음성 데이터 합성부
를 포함하고,
상기 음성 합성용 데이터 기억부에 기억되는 음성 합성용 데이터는, 상기 복수개의 통신 단말기의 각 사용자 본인의 목소리의 음성 데이터이고,
음성 데이터 합성부에 의해 합성된 음성 데이터는, 상기 제1 통신 단말기로부터 송신된 상기 텍스트 메시지의 수신처인, 제2 통신 단말기에 송신되는 미디어 처리 서버 장치.
제1항에 있어서,
상기 감정 판정부는, 상기 감정 정보로서, 감정을 복수개의 문자의 조합에 의해 표현한 감정 기호를 추출한 경우에는, 상기 감정 기호에 기초하여 감정의 종별을 판정하는, 미디어 처리 서버 장치.
제1항 또는 제2항에 있어서,
상기 감정 판정부는, 수신한 상기 텍스트 메시지에, 텍스트에 삽입할 화상이 첨부되어 있는 경우에는, 상기 판정 단위 내의 텍스트에 더하여, 상기 텍스트에 삽입할 화상도 상기 감정 정보의 추출 대상으로 하고, 상기 감정 정보로서, 감정을 그림에 의해 표현한 감정 화상을 추출한 경우에는, 상기 감정 화상에 기초하여 감정의 종별을 판정하는, 미디어 처리 서버 장치.
제1항 또는 제2항에 있어서,
상기 감정 판정부는, 상기 판정 단위 내로부터 추출한 감정 정보가 복수개 있는 경우에는, 복수개의 상기 감정 정보 각각에 대하여 감정의 종별을 판정하고, 판정한 감정의 종별 중, 가장 출현수가 많은 감정의 종별을 판정 결과로서 선택하는, 미디어 처리 서버 장치.
제1항 또는 제2항에 있어서,
상기 감정 판정부는, 상기 텍스트 메시지 내의 상기 판정 단위 내로부터 추출한 감정 정보가 복수개 있는 경우에는, 상기 판정 단위의 종점에 가장 가까운 위치에 출현하는 감정 정보에 기초하여 감정의 종별을 판정하는, 미디어 처리 서버 장치.
제1항 또는 제2항에 있어서,
상기 음성 합성용 데이터 기억부는, 상기 복수개의 통신 단말기의 각 사용자의 음성 패턴의 특성을 감정의 종별마다 설정하는 파라미터를 더 기억하고,
상기 음성 데이터 합성부는, 합성한 음성 데이터를 상기 파라미터에 기초하여 조정하는, 미디어 처리 서버 장치.
제6항에 있어서,
상기 파라미터는, 각각의 상기 사용자에 대하여 상기 감정의 종별마다 분류하여 기억된 음성 합성용 데이터의 목소리의 크기의 평균값, 속도의 평균값, 운율(韻律)의 평균값, 및 주파수의 평균값 중 적어도 하나인, 미디어 처리 서버 장치.
제1항 또는 제2항에 있어서,
상기 음성 데이터 합성부는, 상기 판정 단위 내의 텍스트를 복수개의 합성 단위로 분해하고, 상기 합성 단위마다 상기 음성 데이터의 합성을 실행하고,
상기 음성 데이터 합성부는, 상기 제1 통신 단말기의 사용자를 나타내는 사용자 식별자와 관련된 음성 합성용 데이터에, 상기 감정 판정부에서 판정한 감정의 종별에 대응하는 음성 합성용 데이터가 포함되어 있지 않은 경우에는, 상기 합성 단위의 텍스트와 발음이 부분적으로 일치하는 음성 합성용 데이터를, 상기 제1 통신 단말기의 사용자를 나타내는 사용자 식별자와 관련된 음성 합성용 데이터로부터 선택하여 판독하는, 미디어 처리 서버 장치.
복수개의 통신 단말기 사이에서 송수신되는 텍스트 메시지에 대응하는 음성을 합성함으로써 음성 메시지를 생성하는 것이 가능한 미디어 처리 서버 장치에서의 미디어 처리 방법으로서,
상기 미디어 처리 서버 장치는, 상기 복수개의 통신 단말기의 각 사용자를 일의적으로 식별하는 사용자 식별자와 관련시켜서, 음성 합성용 데이터를 감정의 종별마다 분류하여 기억하는 음성 합성용 데이터 기억부를 포함하고,
상기 방법은,
상기 복수개의 통신 단말기 중, 제1 통신 단말기로부터 송신된 텍스트 메시지를 수신하면, 수신한 텍스트 메시지의 판정 단위마다, 판정 단위 내의 텍스트로부터 감정 정보를 추출하고, 추출한 감정 정보에 기초하여 감정의 종별을 판정하는 판정 단계; 및
상기 제1 통신 단말기의 사용자를 나타내는 사용자 식별자와 관련된 음성 합성용 데이터 중, 상기 판정 단계에서 판정한 감정의 종별에 대응하는 음성 합성용 데이터를, 상기 음성 합성용 데이터 기억부로부터 판독하고, 판독한 상기 음성 합성용 데이터를 사용하여, 상기 판정 단위의 텍스트에 대응하는 음성 데이터를 합성하는 합성 단계
를 포함하고,
상기 음성 합성용 데이터 기억부에 기억되는 음성 합성용 데이터는, 상기 복수개의 통신 단말기의 각 사용자 본인의 목소리의 음성 데이터이고,
음성 데이터 합성부에 의해 합성된 음성 데이터는, 상기 제1 통신 단말기로부터 송신된 상기 텍스트 메시지의 수신처인, 제2 통신 단말기에 송신되는 미디어 처리 방법.