KR20070106652A

KR20070106652A - 실시간 클라이언트 서버의 문자-음성 변환 인터페이스를위한 시스템 및 방법

Info

Publication number: KR20070106652A
Application number: KR1020067007895A
Authority: KR
Inventors: 길 사이드맨
Original assignee: 오드캐스트, 인코포레이티드
Priority date: 2005-03-01
Filing date: 2006-03-01
Publication date: 2007-11-05
Also published as: WO2006093912A2; WO2006093912A3; US20060200355A1

Abstract

본 발명은, 로컬 컴퓨터에서 실행되는, 웹사이트 등의 클라이언트 프로세스로부터 입력을 받아들일 수 있는 인터페이스(예컨대, "API"), 클라이언트측 소프트웨어 모듈 또는 그외 다른 프로세스를 제공하는 방법 및 시스템이다. 클라이언트측 소프트웨어 모듈은, 입력과 인증 정보를 원격의 서버에 전달할 수 있으며, 원격의 서버는 문자-음성 변환(TTS) 컨텐츠 또는 출력을 작성하고, 그 출력을 다시 클라이언트측 소프트웨어 모듈에 전송한다. 클라이언트측 소프트웨어 모듈에서는 클라이언트 프로세스를 위한 출력을 작성할 수 있다. 클라이언트측 소프트웨어 모듈은 보안 또는 부트스트랩 프로세스에 의해 로딩될 수 있다. 클라이언트측 소프트웨어 모듈은 클라이언트측 상태를 분석하거나, 인증, 보안 상태 또는 정보를 생성할 수 있다.

Description

실시간 클라이언트 서버의 문자-음성 변환 인터페이스를 위한 시스템 및 방법{SYSTEM AND METHOD FOR A REAL TIME CLIENT SERVER TEXT TO SPEECH INTERFACE}

본 발명은, 문자가 입력되고, 음성으로 변환시킬 상기 문자의 가청 스트림(audible stream)의 출력을 작성하는 문자-음성 변환(TTS: text-to-speech) 컴퓨팅 또는 소프트웨어 시스템에 관한 것이다. 몇몇 시스템은, 가청 음성을, 음성을 만들어낼 수 있을 만한 동화(動畵)의 인물(animated figure)과 조합한다. 예를 들어, 문자-음성 변환(TTS) "엔진"은, 문자열을 입력으로 받아들이고, 동화 인물이, 문자열에 포함된 문자를, 가능하면 선택된 언어로 말하도록 할 수 있다.

많은 수의 플랫폼이 클라이언트 기반을 구성하는, 클라이언트-서버 환경에서, 문자-음성 변환("TTS") 기능과 같은 능력을 임의의 장치에서 구현되도록 하는 것은, 플랫폼의 변경되기 쉬운 특성 때문에, 복잡해질 수 있다.

이러한 구성에서, 웹사이트나 웹 브라우저와 같은 클라이언트 프로그램 또는 웹사이트나 웹브라우저에 통합된 소프트웨어와, 문자-음성 변환 서버 또는 서버측 엔진 사이의 인터페이스는, 복잡해서 사용하기 어려울 수 있다. 또한, 서버측 엔진이, 보안 또는 미터링(metering) 기능을 수행하기 위하여, 클라이언트의 식별 요소(identity)를 확인하는 것이 바람직할 수 있다. 예컨대, 식별 요소 등에 기초하 여, 문자-음성 변환 서비스의 이용을 모니터링 또는 제어하는 편리한 방법이 필요하다.

본 발명의 방법 및 시스템은, 로컬 컴퓨터에서 실행되는, 웹사이트와 같은 클라이언트 프로세스로부터 입력을 받아들일 수 있는, 인터페이스(예컨대, "API"(응용 프로그램 인터페이스)), 클라이언트측 소프트웨어 모듈 또는 그외 다른 프로세스(process)를 제공할 수 있다. 이 클라이언트측 소프트웨어 모듈은, 클라이언트 프로세스로부터의 입력 및 가능하면 인증 정보까지 원격의 서버로 전달할 수 있다. 원격의 서버는, 문자-음성 변환 컨텐츠 또는 출력을 작성하고, 작성된 출력을 다시 클라이언트측 소프트웨어 모듈로 전송할 수 있다. 원격의 서버는 클라이언트 프로세스에 대한 출력을 작성할 수 있다. 클라이언트측 소프트웨어 모듈은, 보안 또는 부트스트랩 프로세스에 의해 로딩될 수 있다. 클라이언트측 소프트웨어 모듈은 클라이언트측의 상태를 분석하거나, 그외의 경우에는 인증 상태나 보안 상태 또는 관련 정보를 생성할 수 있다.

본 발명은 첨부 도면을 참조하여 이하의 상세한 설명으로부터 더 명확하게 이해될 것이다.

도 1은 본 발명의 일실시예에 따른 로컬 및 원격 시스템을 나타내는 도면.

도 2는 본 발명의 실시예에 의해 생성되는 웹 페이지와, 본 발명의 일실시예의 다양한 구성요소와의 상호작용을 나타내는 도면.

도 3은 본 발명의 일실시예에 따른 방법의 흐름도.

이하의 설명에서는 본 발명의 여러 가지 특징에 대하여 설명한다. 본 발명의 전체적인 이해를 돕기 위하여, 특정의 구성과 세부사항에 대하여 설명한다. 그러나, 본 발명은, 본 명세서에 제시된 특정의 세부설명이 없어도, 당업자라면 실행이 가능하다는 것이 명백하다. 또한, 공지된 특징에 대해서는, 본 발명이 불명료하게 되지 않도록 생략하거나 간단하게 설명할 수 있다.

본 명세서에서 제시하는 프로세스(process)는, 임의의 특정한 컴퓨터 또는 그외 다른 장치에 고유하게 관련된 것은 아니다. 다양한 범용의 시스템이, 본 명세서에 기재한 기술에 따른 프로그램과 함께 이용될 수 있으며, 이러한 시스템이 본 발명의 실시예에 따른 방법의 예를 실행하기 위해 더 구체화한 장치를 구성하는 것이 편리할 수 있다. 이들 다양한 시스템에 대한 구조의 실시예는 본 명세서의 설명으로부터 분명해진다. 또한, 본 발명의 실시예는, 임의의 특정한 프로그래밍 언어를 기준으로 해서 작성되어 있지 않다. 본 명세서에 개시된 본 발명의 기술을 구현하기 위하여 다양한 프로그래밍 언어가 이용될 수 있다는 것을 알 수 있을 것이다.

특별히 언급하지 않는 한, 본 명세서의 설명으로부터 명백한 바와 같이, "프로세싱", "처리", "컴퓨팅", "연산", "판정", "결정" 등과 같은 데이터 처리 또는 조작 용어는, 본 명세서의 전체를 통해, 통상적으로 컴퓨터나 컴퓨팅 시스템 또는 이와 유사한 전자 컴퓨팅 기기의 동작 및/또는 처리 작업(프로세스(process))을 의 미한다는 것을 알 수 있을 것이다. 여기서, 컴퓨터나 컴퓨팅 시스템 또는 이와 유사한 전자 컴퓨팅 기기는, 컴퓨팅 시스템의 레지스터 및/또는 메모리 내의 전자적인 물리량으로서 표현되는 데이터를, 컴퓨팅 시스템의 메모리, 레지스터 또는 그외 유사한 정보 기억장치, 전송 또는 디스플레이 장치 내의 물리량으로 유사하게 표현되는 다른 데이터로 조작 및/또는 변환한다.

본 발명의 일실시예는, 클라이언트-서버 구현을 포함하는데, 서버측에서는 문자-음성 변환(TTS: text-to-speech) 생성이 이루어지며, 클라이언트측에서는 재생이 이루어진다. 이러한 방식에 의하면, 서버측에서는 특정된 및/또는 전용의 코드를 실행할 수 있게 되며, 클라이언트측에서는 미리 배포된 표준(예컨대, 표준 오디어 파일 또는 스트림의 오디오 재생을 위한 표준)에 기초한 코드를 실행할 수 있다.

본 발명의 실시예는 문자-음성 변환(TTS) 출력의 생성 및 표현에 관한 것으로서, 음성 구동식 페이셜(얼굴) 애니메이션(speech-driven facial animation)을 이용하는 동화 캐릭터 또는 인물이 말하고 있는 것과 관련되어 있다. 여기서, 음성 구동식 페이셜 애니메이션은, 무선이면서 인터넷을 기반으로 하는 기기, 대화형 TV, 웹 사이트 및 응용기기 등과 같은 디스플레이 컨텍스트(display context)에 통합되어 이용될 수 있다. 본 발명의 실시예에 의하면, 웹 페이지와 같은 그래픽 출력 환경에서의 툴(tool)의 설치와 통합이 용이하게 된다.

본 발명의 일실시예에 따른 방법 및 시스템은, 클라이언트측의 오디오 또는 문자-음성 변환(TTS) 재생을 목적으로, 서버측 문자-음성 변환(TTS) 또는 다른 복 잡한 처리를 용이하게 하기 위하여, 클라이언측 인터페이스(통상적으로 잘 정의되어 있음)를 갖는 프록시 객체(proxy object)와 같은 클라이언트 프로세스를 이용할 수 있다. 그외 다른 또는 상이한 결과나 이점을 얻을 수 있다.

본 발명의 일실시예에서, 웹 브라우저 또는 그외 다른 적절한 로컬 인터프리터나 소프트웨어에 의해 실행되는 자바스크립트(JavaScript) 코드의 로컬 세트(local set)와 같은 로컬 클라이언트 프로세스는, 로컬 인터페이스와 같은 호스트 소프트웨어를 통해 원격의 문자-음성 변환(TTS) 엔진 또는 서버(예컨대, 동화의 문자-음성 변환(TTS)을 제공)와 인터페이스(예컨대, 양방향 방식으로)한다. 통상적으로, 로컬 인터페이스는 로컬 클라이언트의 일부분이 되거나 그 내부에 통합되며, 로컬 클라이언트로부터 문자-음성 변환(TTS) 커맨드 또는 요청을 받아들이고, 클라이언트를 인증하며, 인증 정보 및 커맨드를 원격의 문자-음성 변환(TTS) 엔진에 전달한다. 로컬 인터페이스 모듈은 로컬 클라이언트의 식별 요소를 판정하고, 이 식별 요소를 승인된 식별 요소의 리스트와 비교하거나, 그외 다른 방법에 의하여 인증을 수립하게 된다. 로컬 인터페이스는 로컬 문자-음성 변환(TTS) 출력을 동작시킬 수 있는데, 예를 들면 로컬 인터페이스는 로컬 클라이언트에 의해 조작되는 웹 사이트 내의 윈도우 내의 동화 인물 또는 동화 헤드(animated head)를 표시할 수 있다. 여기서, 동화 헤드는 음성을 출력하기 위한 것이다. 로컬 인터페이스는, 음성 유닛 내의 음성 출력의 진행 상태, 준비 상태/미준비 상태, 또는 다른 출력과 같은 피드백이나 정보를 로컬 클라이언트에 제공할 수 있다. 통상적으로, 원격 사이트(remote site)는, 로컬 클라이언트 및 개별의 원격 사이트 구현 체(remote site embodies)를 인증하고, 원격의 문자-음성 변환(TTS) 엔진을 구동시키며, 필요한 경우 립싱크(lip synchronization) 엔진을 구동시킨다.

동화 캐릭터와 같은 문자-음성 변환(TTS) 출력 모듈은, 웹 페이지 사용자와 상호작용을 할 수 있는데, 웹 페이지 상에서의 사용자의 행위에 의해 소정의 출력이 생길 수 있기 때문이다. 이것은, 통상적으로 웹 페이지를 동작시키며, 로컬 인터페이스를 통해 출력 모듈과 상호작용을 수행하는 로컬 클라이언트 프로세스 소프트웨어에 의해 달성된다.

예컨대, 웹 페이지 소프트웨어에 통합되거나 이에 관련된 문자-음성 변환(TTS) 소프트웨어와 같은 호스트 소프트웨어는, 로컬 인터페이스를 통해 출력 모듈과 상호작용하는 클라이언트 소프트웨어에 피드백 또는 정보를 전달할 수 있다. 동화 캐릭터와 같은 출력 모듈은 실시간 이벤트 또는 사용자의 상호작용에 응답하여 동적인 컨텐츠를 전달할 수 있다.

본 발명의 실시예는, 클라이언트 코드와 문자-음성 변환(TTS) 코드 사이의 용이하면서 단순하고 및/또는 안전한 인터페이스를 제공할 수 있다. 여기서, 클라이언트 코드는, 예컨대 원격의 클라이언트 서버와 상호작용을 수행할 수 있는 웹사이트를 생성 또는 운용하는 개인용 컴퓨터상에서 작용하는 코드이며, 문자-음성 변환(TTS) 코드는, 예컨대 웹사이트에 대한 문자-음성 변환(TTS) 기능을 제공할 수 있으며, 원격의 문자-음성 변환(TTS) 서버와 상호작용을 수행할 수 있는 코드이다. 본 발명의 실시예로부터 다른 또는 상이한 이점을 얻을 수 있다.

도 1은, 본 발명의 일실시예에 따른 로컬 및 원격 시스템을 나타낸다. 로컬 컴퓨터(10)는, 메모리(5), 프로세스(7), 모니터 또는 출력 장치(8), 및 대용량 기억 장치(9)를 포함할 수 있다. 로컬 컴퓨터(10)는 운영 체제(12)와 지원 소프트웨어(14)(예컨대, 웹 브라우저 또는 그외 다른 적절한 로컬 인터프리터 또는 소프트웨어)를 포함할 수 있으며, 로컬 클라이언트 프로세스 또는 소프트웨어(16)(예컨대, 지원 소프트웨어(14)에 의해 운영되는 자바스크립트 또는 그외 다른 적절한 코드)를 동작시켜서, 웹페이지와 같은 대화형 표시를 디스플레이할 수 있다.

로컬 컴퓨터(10)는, 내장 코드(embed code)(22), 문자-음성 변환(TTS) API(응용 프로그래밍 인터페이스) 코드(2), 보안 및 유틸리티 코드(24), 및 출력 모듈(26)을 포함할 수 있다. 코드와 소프트웨어는 메모리(5) 내에 저장된 것으로 나타내고 있지만, 메모리 외의 다른 곳에 저장될 수도 있다. 내장 코드(22)는, 예컨대 다른 코드를 소스 코드에 로딩할 수 있는, 클라이언트의 웹 페이지 소스 코드(예컨대, 클라이언트 프로세스 또는 소프트웨어(16))에 삽입 또는 내장된 몇 개의 라인으로 이루어진 문자가 될 수 있다. 예를 들어, 클라이언트 프로세스 또는 소프트웨어(16)가 개시되면, 내장 코드(22)는 웹 페이지의 모든 문자-음성 변환(TTS) API(20)부를 "부트스트랩"(bootstrap)시키고, 원격의 문자-음성 변환(TTS) 서버(40) 또는 다른 소스로부터 보안 및 유틸리티 코드(24) 및 출력 모듈(26)을 다운로드하며, 보안 및 유틸리티 코드(24) 및 출력 모듈(26)을 클라이언트 소프트웨어(16) 또는 클라이언트 소프트웨어(16) 내의 내장 코드와 관련시킨다. 업로딩 및 부트스트랩 실행에는, 상이한 언어로 기술되어 상이한 능력을 갖는 상이한 세트의 코드를 포함할 수 있다. 이러한 로딩은 로컬 프로세스가 초기화 또는 개시될 때 이루어질 수 있지만, 로컬 프로세스가 문자-음성 변환(TTS) 동작을 처음 실행할 때 등과 같이, 다른 시간에 이루어질 수도 있다. 내장 코드(22)는, HTML 코드 등의 코드를 클라이언트 소프트웨어(16)에 기입하여, 클라이언트 소프트웨어(16)로 하여금, 문자-음성 변환(TTS) API 코드(20)와 통신하도록 할 수 있다. 로컬 클라이언트(16)와 API 코드(20)는 로컬 컴퓨터(10) 등의 동일한 시스템에 위치할 수 있다. 로딩한 이후에, 내장 코드(22)와 문자-음성 변환(TTS) API 코드(20)는 클라이언트 프로세스 또는 소프트웨어(16)에 내장될 수 있다.

예컨대, 일실시예로서, 내장 코드(22)는 다음과 같이 이루어질 수 있다.

HTML 페이지의 <HEAD>에서,

src="http://animatedhost.servercompany.com/animatedhost

_embed_functions.php?acc=12355&js=1&followCursor=1"></script>

HTML 페이지의 <BODY>에서는,

AC_animatedhost

_Embed_12355(300,400,'FFFFFF',1,1,179946,0,0,0,'c6c724dcde1012f3a854bf03f1ea631e',6);

</script>

물론 다른 언어로 된 다른 코드를 이용할 수도 있다.

원격의 문자-음성 변환(TTS) 서버(40)는, 로컬 컴퓨터(10) 및 가능한 다른 사이트로부터 문자-음성 변환(TTS) 커맨드를 받아들이고, 예컨대 오디오 정보 및 얼굴 움직임 커맨드의 형태로 음성을 생성할 수 있다. 여기서 오디오 정보 및 얼굴 움직임 커맨드의 형태는, 오디오 파일 또는 스트림과 자동으로 생성되는 립싱크, 얼굴 모양 정보 또는 링 동기화를 위한 비제메(viseme: 구어의 음소에 대응하는 비주얼한 언어요소로서의 입의 모양) 상세이며, 그외 다른 형태도 이용할 수 있고, 다른 정보가 포함될 수도 있다. 일실시예에서, 출력 모듈(26)은, 문자-음성 변환(TTS) 서버(40)에 대한 인터페이스의 역할을 할 뿐이며, 문자에 따라 음성을 생성하기 위한 기능을 포함하지 않지만, 서버(40)와의 인터페이스를 통해, 클라이언트 소프트웨어(16)로부터 수신한 문자 데이터에 따라 음성을 출력 및 디스플레이한다. 일실시예에서의 출력 모듈(26)은, 입술, 얼굴 또는 다른 신체 움직임에 대응하는 그래픽을 생성하기 위한 정보를 포함하고, 비제메 또는 그외 다른 정보를 상기와 같은 움직임 등으로 변환한다. 출력 모듈(26)은, 오디오 데이터와 관련하여 자동으로 생성된 립싱크 정보를 출력할 수 있다. 원격의 클라이언트 사이트(50)는, 로컬 클라이언트 소프트웨어(16)로 하여금 웹사이트와 같은 디스플레이 또는 서비스를 제공하도록 하기 위하여, 지원, 처리, 데이터, 다운로드 또는 그외 다른 서비스를 제공할 수 있다. 예를 들어, 로컬 클라이언트 소프트웨어(16)가, 웹을 기반으로 하는 판매업자로부터 상품을 판매하기 위한 사이트를 운영하는 경우, 원격의 클라이언트 사이트(50)는 웹을 기반으로 하는 판매업자의 웹사이트를 운영하기 위한 데이터베이스 및 소프트웨어를 포함할 수 있다. 통상적으로, 원격의 클라이언트 사이트(50) 및 원격의 문자-음성 변환(TTS) 서버(40)는 서로 그리고 로컬 컴퓨터(10)로부터 물리적으로 전혀 다른 것이며, 공지된 소프트웨어(예컨대, 데이터베이스 소프트웨어, 웹 서버 소프트웨어, 문자-음성 변환(TTS) 소프트웨어, 립싱크 소프트웨어, 신체 움직임 소프트웨어)를 실행시키고, 로컬 컴퓨터(10)와 유사한 많은 사이트를 지원할 수 있고, 인터넷(100)과 같은 하나 이상의 네트워크를 통해 로컬 컴퓨터(10)에 접속된다.

도 2는 본 발명의 실시예에 의해 작성된 웹 페이지와, 본 발명의 실시예의 다양한 구성요소들 간의 상호작용을 나타낸다. 웹 페이지(200)(예컨대, 모니터(8)상에 디스플레이될 수 있다)는, 음성으로 변환된 문자의 출력을 포함할 수 있는, 내장 영역(embedded area)(220)을 구비할 수 있다. 예를 들어, 내장 영역(220)은, 동화 형태 또는 인물(222)을 포함할 수 있다. 일실시예에서, 내장 영역(220)은, 동적으로 말을 하는 인물 또는 캐릭터를 포함하는 사각형이 될 수 있다. 다른 출력 모듈이 내장 영역(220)에 의해 표시될 수 있다. 코드 실행에 의한 웹 페이지(200)는, 원격의 클라이언트 사이트(50)와 상호작용하여 웹 페이지(200)를 제공한다. 코드 실행에 의한 내장 영역(220)은, 문자-음성 변환(TTS) 서버(40)와 상호작용하여 내장 영역(220)을 제공할 수 있다. 문자-음성 변환(TTS) API 코드(20)에 의해 웹 페이지(200)는 내장 영역(220)과 상호작용을 수행할 수 있다.

문자-음성 변환(TTS) API 코드(20)는 로컬 클라이언트 소프트웨어(16)로부터 문자-음성 변환(TTS) 커맨드를 받아들여서 그 클라이언트를 인증할 수 있다. 문자-음성 변환(TTS) API 코드(20)가 로딩되면, 보안 및 유틸리티 코드(24)는 보안 또는 검증 정보를 생성할 수 있는데, 이러한 보안 또는 검증 정보에 의해, 예컨대 원 격의 문자-음성 변환(TTS) 서버(40)는, 웹 페이지(200)가 문자-음성 변환(TTS) 또는 다른 서비스를 요청할 수 있도록 인증되었다는 것을 검증할 수 있다. 이러한 검증 정보는, 고객의 미터링(metering) 또는 요금 부과(billing)를 실시하는데 이용될 수 있다. 일실시예에서, 출력 모듈(26)은 플래시(Flash) 언어 요소이며, 보안 및 유틸리티 코드(24)는 자바스크립트 언어와 같이 다른 언어로 작성된 요소이다. 내장 코드(22)가 로컬 클라이언트 소프트웨어(16)에 코드를 로딩하면, 식별 요소, 로컬 클라이언트 소프트웨어(16)의 식별자나 웹 페이지, 또는 현재의 웹 페이지가 로딩되는 도메인 이름과 같은 보안 또는 검증 정보를 찾기 위하여, 보안 및 유틸리티 코드를 이용할 수 있다. 이 정보는 출력 모듈(26) 내의 파라미터, 예컨대 보안 또는 검증 파라미터(27)로서 구체화될 수 있다. 보안 파라미터(27)는, 예컨대 웹 페이지(200)의 도메인 이름에 대응하는 타이틀 또는 레이블이 될 수 있다. 내장 코드(22)는, 예컨대 로컬 클라이언트(16) 내에 포함되는 프로세스가 될 수 있다.

일실시예에서, 보안 또는 검증 정보는 클라이언트 프로세스의 식별 요소와 도메인 이름을 포함한다. 도메인 이름과 클라이언트 식별 요소로 이루어진 쌍은 인증 키로서의 기능을 할 수 있다. 보안 또는 검증 정보는 로컬 클라이언트에 대응하거나 다른 방식으로 식별할 수 있다.

일실시예에서, 보안 파라미터(27)를 찾고, 찾은 파라미터를 출력 모듈(26)에 삽입하는데 이용될 수 있는 코드의 예는 다음과 같다(다른 코드의 세트, 다른 알고리즘, 및 다른 언어가 이용될 수도 있다):

function domainOfPage() {

domainName = document.location.hostname;

if(domainName.length<=0)

domainName = 'not_found';

return domainName;

}

function AC_Animatehost_Embed_<?=$accountID;?> (height, width, bgcolor, firstslide, loading, ss, sl, transparent, minimal, embedId, flashVersion) {

flashVersion = flashVersion ? flashVersion : 5;

objWidth = width;

objHeight = height;

lc_name = '<?=getmicrotime()?>';

embedId = embedId==''?'nothing':embedId;

domString = '&pageDomain='+domainOfPage();

tokenString = '&token=<?=$token;?>';

getShow =

'<?=urlencode(VHSS_HTTP_PREPEND.$HOST.'/getshow.php?acc='.$accountID)? >'+escape('&ss='+ss+'&sl='+sl+'&embedid='+embedId);

url =

'<?=VHSS_HTTP_PREPEND.$HOST?>/vhsssecure.php?doc='+getShow+'&edit=0&ac

c=<?=$accountID;?>&firstslide='+firstslide+'&loading='+loading+'&minim

al='+minimal+'&bgcolor=0x'+bgcolor+domString+tokenString+'&lc_name='+l

c_name+'&fv='+flashVersion+'&is_ie=<?=($JSGroup==1?1:0)?>';

showURL = url;

loading = 1; // done after request not to allow admin not to have a

loader

if (transparent != 1){

AC_RunFlContentX('height',height,'swliveconnect','true','src',url,'sca

le','noborder','id','VHSS','width',width,'bgcolor','#'+bgcolor,'quali

ty','high','movie',url,'name','VHSS','codebase',

'<?=VHSS_HTTP_PREPEND?>download.macromedia.com/pub/shockwave/cabs/flas

h/swflash.cab#version='+flashVersion+',0,0,0');

}else{

AC_RunFlContentX('height',height,'swliveconnect','true','src',url,'sca

le','noborder','id','VHSS','width',width,'bgcolor','#'+bgcolor,'quali

ty','high','movie',url,'name','VHSS','codebase',

'<?=VHSS_HTTP_PREPEND?>download.macromedia.com/pub/shockwave/cabs/flas

h/swflash.cab#version='+flashVersion+',0,0,0', 'wmode','transparent' );

}

일실시예에서 상기 코드는, 웹 페이지가 로딩될 때 내장 코드(22)에 의해 웹 페이지에 동적으로 작성되고, 클라이언트 식별을 포함하기 때문에, 달리 작성하기가 쉽지 않다. 다른 실시예는 다른 내장 정보를 이용하거나 내장 정보를 이용하지 않을 수 있다.

다른 적절한 언어나 코드 세그먼트가 이용될 수도 있다. 도메인과 같은 식별 정보를 찾는 다른 적절한 방법이 이용될 수 있으며, 도메인 외의 다른 식별 정보가 이용될 수 있다. 출력 모듈(26)은 보안 파라미터(27)를 문자-음성 변환(TTS) 서버(40)에 전달할 수 있다. 문자-음성 변환(TTS) 서버(26)는, 승인된 클라이언트 또는 사이트의 데이터베이스(42)와 이들 사이트에 대한 추가의 정보를 유지할 수 있다. 이러한 정보에는, 승인된 클라이언트 웹사이트가 문자-음성 변환(TTS) 서버(40)에 액세스할 수 있는 도메인 이름이나 주소 등이 포함된다. 문자-음성 변환(TTS) 서버(40)는, 출력 모듈(26)에 의해 전달된 보안 파라미터(27)(예컨대, 도메인 이름 또는 다른 식별 정보)를 비교하고, 웹페이지(200)가 서버(40)에 의해 제공되는 서비스를 이용하도록 허가되었는지를 판단하고, 및/또는 웹페이지(200)와 관련된 사용자 또는 클라이언트에 대한 요금 부과(billing) 정보를 미터링 또는 기록할 수 있다. 예를 들어, 보안 또는 검증 정보는 승인된 클라이언트의 리스트 또는 세트에 비교될 수 있다.

다른 실시예에서, 문자-음성 변환(TTS) API 코드(20)에 대해 처리를 위해 문자를 받아들일지를 문의하면, 보안 및 유틸리티 코드(24)는 이러한 동작을 진행시키도록 하는 검증 정보를 생성할 수 있다. 출력 모듈(26)은 네스티드 무비(nested movies) 세트의 루트 레벨(root level)을 찾고, 가장 바깥에 있는 문서인 문서 객체(document object)로부터 찾기 위해, 보안 및 유틸리티 코드(24)를 통해 주위의 웹페이지와 통신하게 된다. 통상적으로, 웹페이지는 웹페이지(200)의 도메인 이름에 대응하는 타이틀이나 레이블을 갖는다. 도메인과 같은 식별 정보를 찾는 다른 적절한 방법이 사용될 수 있으며, 도메인 외의 다른 식별 정보가 이용될 수 있다. 도메인 이름이나 다른 식별자는 문자-음성 변환(TTS) API 코드(20)에 의해 문자-음성 변환(TTS) 서버(40)로 전달될 수 있다.

출력 모듈(26)은, 로컬 클라이언트 소프트웨어(16)로부터, 예컨대 문자 라인, 소정의 목소리나 개성의 식별, 언어, 및 이용을 위한 특정의 판매업자의 엔진 식별을 포함하는 요청을 수신할 수 있다. 다른 정보가 포함될 수도 있다. 예컨대, 상기 요청은 다음과 같은 프로시저 호출(procedure call)에 의해 영향을 받을 수 있다.

javascript:sayText("text", voiceID, language, engine).

출력 모듈(26)은, 클라이언트 웹페이지에 내장된 동화 인물(222) 또는 다른 출력 영역이 웹페이지와의 상호연결을 허용하는 함수 호출의 세트를 포함할 수 있다. 출력 모듈(26)은, 보안 또는 식별 정보(예컨대, 웹 주소, 웹 페이지 이름, 도메인 이름, 또는 그외 다른 정보)에 대한 유틸리티 코드(24)를 질의하고, 요청 또는 요청 내의 정보를 전달하며, 보안 또는 식별 정보를, 예컨대 네트워크(100)를 통해, 문자-음성 변환(TTS) 서버(40)에 부가할 수 있다. 문자-음성 변환(TTS) 서버(40)는 검증, 미터링(metering), 또는 다른 목적을 위한 보안 또는 식별 정보를 이용할 수 있다. 문자-음성 변환(TTS) 서버(40)는, 문자를, "wav" 등의 적절한 포맷 또는 다른 적절한 포맷으로 저장된, 컨텐츠 또는 음성(목소리, 언어 등과 같은 추가적인 파라미터를 이용할 수 있다) 등의 출력으로 변환하고, 립싱크 데이터(오디오 정보에 대응하는 입술 비제메의 리스트)와 같이, 애니메이션에 이용되는 다른 정보를 생성할 수 있다. 이러한 컨텐츠 또는 정보는 적절하게 압축 및 패키지화되어, 출력 모듈(26)로 다시 전달된다. 출력 모듈(26)은, 예컨대 동화 인물(222) 출력을 가짐으로써, 내장 영역(220)에서, 통상 문자로 변환된 이러한 컨텐츠를 출력하고, 비제메 또는 다른 데이터에 따라 이동시킬 수 있다. 출력 모듈(26)은, 음성이 출력되기 전, 출력되는 동안, 출력된 이후에, 출력 준비, 출력 진행 상태, 출력 완료, 사용 중 등과 같은 정보를 로컬 클라이언트 소프트웨어(16)에 제공할 수 있다.

문자-음성 변환(TTS) API 코드(20)에 의하여, 클라이언트 웹 페이지는 원격의 서버와 직접 상호작용을 하지 않고, 로컬 인터페이스와 직접 상호작용을 수행할 수 있다. 문자-음성 변환(TTS) API 코드(20)와 그 구성요소는, 예컨대 자바스크립 트(JavaScript), 액션스크립트(ActionScript)(예컨대, 플래시(Flash) 스크립트용 언어) 및/또는 C++ 언어로 구현될 수 있다. 그러나, 다른 언어를 사용해도 된다. 일실시예에서, 내장 코드(22)는 서버측 PHP 코드에 의해 생성되는 HTML 및 자바스크립트로 구현되며, 보안 및 유틸리티 코드(24)는, 예컨대 JavaScript 및 ActionScript로 구현되고, 출력 모듈(26)은, 플래시 언어로 구현된다. 본 발명의 실시예의 한가지 장점은, 프로그래밍 작업 또는 문자-음성 변환(TTS) 모듈을 이용하는 웹 페이지를 갖성하는 작업의 복잡한 정도를 감소시킬 수 있다는 것이다. 문자-음성 변환(TTS) 엔진을, 프로그래머에 의해 작성된 웹 페이지와 같은 클라이언트 소프트웨어에 통합시키기를 원하는 프로그래머 또는 사용자는, 단일의 로컬 엔티티와 인터페이스하면 된다. 다른 이점은 안전하다는 것이다. 문자-음성 변환(TTS) 처리에는 정량화될 필요가 있는 서버에서의 리소스가 요구될 수 있다. 즉, 예컨대 몇몇 사용자 또는 클라이언트는 관례에 따라 지불할 수 있다. 예컨대, 웹사이트나 도메인이 문자-음성 변환(TTS) 처리를 요청하는지를 검증함으로써, 요금 누산이 정확하게 된다. 클라이언트 웹사이트에 의해 만들어지는 문자-음성 변환(TTS) 함수 호출은, 허가를 받은 도메인에 대해서는 허용되는 안전한 함수 호출이 될 수 있다. 본 발명의 실시예로부터 다른 이점도 얻을 수 있다.

도 3은 본 발명의 일실시예에 따른 방법의 흐름도이다.

실행 단계 300에서, 로컬 클라이언트가 개시되거나, 로컬 시스템에 로딩된다. 예를 들어, 웹 페이지가 로컬 시스템에 로딩된다.

실행 단계 310에서, 로컬 클라이언트의 일부가 문자-음성 변환(TTS) API를 로컬 클라이언트에 내장시킨다. 다른 실시예에서는, 이러한 "부트스트랩"이 이용되지 않을 수 있으며, 문자-음성 변환(TTS) API가 처음부터 로컬 클라이언트에 포함될 수 있다.

실행 단계 320에서, 로컬 클라이언트에 관련된 보안 정보가, 예컨대 문자-음성 변환(TTS) API 또는 API를 로딩하는 코드에 의해 수집된다. 예를 들어, 부트스트랩 실행 소프트웨어는 보안 및 유틸리티 코드를 이용하여 보안 파라미터를 생성할 수 있으며, 이러한 보안 파라미터는 웹 페이지의 도메인 이름에 대응하는 타이틀 또는 레이블 등이 될 수 있다.

실행 단계 330에서, 로컬 클라이언트는 문자-음성 변환(TTS) 요청을 로컬 문자-음성 변환(TTS) API에 전달할 수 있다.

실행 단계 340에서, 문자-음성 변환(TTS) 요청이 로컬 문자-음성 변환(TTS) API에 의해 원격의 서버에 전달될 수 있으며, 실행 단계 320에서 수집한 것과 같은 보안 정보가 포함될 수 있다.

실행 단계 350에서, 원격의 서버는 보안 정보를 이용할 수 있다. 예를 들어, 원격의 서버는, 보안 정보가 승인된 클라이언트의 세트와 부합하지 않는 경우에는 그 요청을 처리하지 않을 수 있다. 또는, 원격의 서버가 미터링이나 요금 부과를 위한 보안 정보를 이용할 수 있다. 보안 정보가, 클라이언트 웹 페이지의 도메인 이름 등의 도메인 이름 정보를 포함하는 경우, 원격의 서버는 이 보안 정보를 승인된 도메인 이름의 세트와 비교할 수 있다.

실행 단계 360에서, 원격의 서버는 요청을 처리할 수 있다.

실행 단계 370에서, 원격의 서버는 문자-음성 변환(TTS) 출력을 로컬 TTI API에 전송할 수 있다.

실행 단계 380에서, 원격의 서버는 문자-음성 변환(TTS) 출력을 내보낼 수 있다.

다른 실행 또는 일련의 실행 단계가 이용될 수 있다.

당업자라면, 본원 발명이 상기 특정적으로 도시하고 설명한 것에 한정되지 않는다는 것을 알 수 있을 것이다. 본 발명의 범위는 청구범위에 의해 정해진다.

Claims

인터페이스 모듈이 동일한 로컬 컴퓨터상에 있는 클라이언트 프로세스로부터 문자-음성 변환(TTS) 요청을 포함하는 입력을 받는 단계;

상기 인터페이스 모듈이 상기 문자-음성 변환(TTS) 요청을 원격의 문자-음성 변환(TTS) 서버에 전송하는 단계;

상기 인터페이스 모듈이 상기 원격의 문자-음성 변환(TTS) 서버로부터 문자-음성 변환(TTS) 컨텐츠를 수신하는 단계;

상기 인터페이스 모듈이 상기 문자-음성 변환(TTS) 컨텐츠를 출력하는 단계

를 포함하는 방법.
제1항에 있어서,

상기 문자-음성 변환(TTS) 컨텐츠를 출력하는 단계는, 동화의 말하는 인물(animated speaking figure) 및 상기 동화의 말하는 인물에 대응하는 음성을 출력하는 단계를 포함하는 방법.
제1항에 있어서,

상기 문자-음성 변환(TTS) 켄텐츠를 출력하는 단계는, 자동으로 생성된 립싱크(lip synchronization) 정보를 출력하는 단계를 포함하는 방법.
제1항에 있어서,

상기 인터페이스 모듈이 보안 정보를 상기 문자-음성 변환(TTS) 서버에 전송하는 단계를 추가로 포함하는 방법.
제1항에 있어서,

상기 문자-음성 변환(TTS) 요청은 일련의 문자를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 문자-음성 변환(TTS) 컨텐츠는 오디오 파일을 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 문자-음성 변환(TTS) 컨텐츠는 자동으로 생성된 립싱크 정보를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 인터페이스 모듈이 인증을 수립하는 단계를 추가로 포함하는 방법.
로컬 컴퓨터상의 클라이언트 프로세스로부터 문자-음성 변환(TTS) 입력을 받 는 단계;

상기 문자-음성 변환(TTS) 입력 및 보안 정보를 원격의 문자-음성 변환(TTS) 서버에 전송하는 단계;

상기 원격의 문자-음성 변환(TTS) 서버로부터 문자-음성 변환(TTS) 컨텐츠를 수신하는 단계; 및

상기 문자-음성 변환(TTS) 컨텐츠를 출력하는 단계

를 포함하는 방법.
제9항에 있어서,

상기 보안 정보는 적어도 상기 클라이언트 프로세스의 식별 정보를 포함하는 것을 특징으로 하는 방법.
제9항에 있어서,

상기 보안 정보는 적어도 도메인 이름을 포함하는 것을 특징으로 하는 방법.
제9항에 있어서,

상기 클라이언트 프로세스를 개시할 때, 상기 클라이언트 프로세스 내에 내장된 프로세스에 의해 보안 정보를 판정하고 문자-음성 변환(TTS) API를 로딩하는 단계를 포함하는 방법.
제9항에 있어서,

상기 원격의 문자-음성 변환(TTS) 서버에서, 상기 보안 정보를 일련의 승인된 클라이언트에 비교하는 단계를 포함하는 방법.
제9항에 있어서,

상기 보안 정보는 도메인 이름 정보를 포함하며,

상기 원격의 문자-음성 변환(TTS) 서버에서, 상기 보안 정보를 일련의 승인된 도메인 이름에 비교하는 단계를 포함하는 방법.
로컬 컴퓨터상에 있는 로컬 클라이언트 프로세스; 및

상기 로컬 컴퓨터상에 있으며, 상기 클라이언트 프로세스로부터 문자-음성 변환(TTS) 요청을 포함하는 입력을 받고, 상기 문자-음성 변환(TTS) 요청을 원격의 문자-음성 변환(TTS) 서버에 전송하며, 상기 원격의 문자-음성 변환(TTS) 서버로부터 문자-음성 변환(TTS) 컨텐츠를 수신하고, 상기 문자-음성 변환(TTS) 컨텐츠를 출력하는 인터페이스 모듈을 포함하는 시스템.
제15항에 있어서,

상기 문자-음성 변환(TTS) 켄텐츠의 출력은, 동화의 말하는 인물(animated speaking figure) 및 상기 동화의 말하는 인물에 대응하는 음성의 출력을 포함하는 것을 특징으로 하는 시스템.
제15항에 있어서,

상기 인터페이스 모듈은, 보안 정보를 상기 문자-음성 변환(TTS) 서버에 전송하는 것을 특징으로 하는 시스템.
제15항에 있어서,

상기 문자-음성 변환(TTS) 요청은 일련의 문자를 포함하는 것을 특징으로 하는 시스템.
제15항에 있어서,

상기 문자-음성 변환(TTS) 컨텐츠는 오디오 파일을 포함하는 것을 특징으로 하는 시스템.
로컬 클라이언트;

상기 로컬 클라이언트로부터 문자를 받아서, 상기 문자를 원격의 서버에 전송하고, 상기 원격의 서버로부터 문자-음성 변환(TTS) 출력을 받아서, 상기 문자-음성 변환(TTS) 출력을 내보내는 문자-음성 변환(TTS) 모듈; 및

보안 정보를 생성하고, 상기 문자-음성 변환(TTS) 모듈을 상기 로컬 클라이언트에 로딩하는 부트스트랩 모듈

을 포함하는 시스템.
제20항에 있어서,

상기 문자-음성 변환(TTS) 모듈은 상기 로컬 클라이언트에 대응하는 보안 정보를 포함하는 것을 특징으로 하는 시스템.
제20항에 있어서,

상기 문자-음성 변환(TTS) 모듈 및 부트스트랩 모듈은 상기 로컬 클라이언트에 통합되는 것을 특징으로 하는 시스템.
제20항에 있어서,

상기 보안 정보는 상기 로컬 클라이언트의 식별 정보와 도메인 이름을 포함하는 것을 특징으로 하는 시스템.
제20항에 있어서,

상기 로컬 클라이언트 내에 내장되어, 상기 로컬 클라이언트와 관련된 도메인 이름을 결정하는 프로세스를 포함하며,

상기 보안 정보는 상기 도메인 이름을 포함하는 것을 특징으로 하는 시스템.