KR20140071399A

KR20140071399A - 오디오 인터페이스

Info

Publication number: KR20140071399A
Application number: KR1020147008642A
Authority: KR
Inventors: 노리아키 쿠와하라; 즈토무 미야사토; 야스유키 수미
Original assignee: 엠파이어 테크놀로지 디벨롭먼트 엘엘씨
Priority date: 2011-11-21
Filing date: 2011-11-21
Publication date: 2014-06-11
Also published as: KR101611224B1; WO2013077843A1; US9711134B2; US20130132087A1; EP2783292A4; EP2783292A1

Abstract

오디오 인터페이스를 제공하기 위한 방법, 시스템 및 장치가 일반적으로 개시된다.

Description

오디오 인터페이스{AUDIO INTERFACE}

오디오 인터페이스는 자동화된 서비스 또는 프로세스를 개시하기 위하여, 음성/스피치(speech) 플랫폼을 통하여 기계와의 인간 상호 작용을 가능하게 할 수 있다. 음성 인터페이스는 보다 흔한 것이 되었으며, 사람들은 이러한 핸즈 프리(hands free) 그리고 아이즈 프리(eyes free) 인터페이스가 많은 상황에서 제공하는 가치를 이용하고 있다. 그러나, 시각적 인터페이스와 비교하여, 음성 인터페이스는 일반적으로 구술 정보(spoken information)의 복수의 항목을 동시에 나타내기 어렵다는 제한이 있다. 전화기에 대한 자동화된 음성 응답 시스템이 전형적인 일례이다. 음성 인터페이스의 효율성을 향상시키기 위해 고려될 수 있는 접근법은 구술 정보의 복수의 항목을 사용자에게 실질적으로 동시에 나타내는 것이다. 그러나, 이러한 접근법으로는, 사용자에게 구술되는 바를 인식하게 어렵게 만드는 음향 심리학적인 효과(psychoacoustic effect)로 인하여 구술 정보의 한 항목이 구술 정보의 다른 항목에 의해 가려지게 된다.

일 예시에서, 오디오 인터페이스 시스템에서의 방법은 제1 내레이터의 제1 음성 데이터 및 제2 내레이터의 제2 음성 데이터를 수신하는 단계, 제2 음성 데이터를 음성 변환 함수에 의해 변환하는 단계, 제1 텍스트 데이터 및 제2 텍스트 데이터를 수신하는 단계, 제1 텍스트 데이터의 적어도 일부를 제1 음성 데이터에 적어도 부분적으로 기초하여, 제1 합성된 음성 데이터로 전환하는 단계, 제2 텍스트 데이터의 적어도 일부를 변환된 제2 음성 데이터에 적어도 부분적으로 기초하여, 제2 합성된 음성 데이터로 전환하는 단계 및 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 음성 인터페이스를 통하여 제공하는 단계를 포함할 수 있다.

일 예시에서, 오디오 인터페이스 시스템에서의 방법은 제1 텍스트 데이터 및 제2 텍스트 데이터를 외부 네트워크로부터 수신하는 단계, 제1 텍스트 데이터의 적어도 일부를 제1 음성 데이터에 적어도 부분적으로 기초하여, 제1 합성된 음성 데이터로 전환하는 단계, 제2 텍스트 데이터의 적어도 일부를 음성 변환 함수에 의해 제2 음성 데이터로부터 변환되는 변환된 제2 음성 데이터에 적어도 부분적으로 기초하여, 제2 합성된 음성 데이터로 전환하는 단계 및 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 음성 인터페이스 시스템을 통하여 제공하는 단계를 포함한다.

일 예시에서, 오디오 인터페이스 시스템은 제1 음성 데이터의 적어도 하나의 음향 모델 및 음성 변환 함수에 의해 제2 음성 데이터로부터 변환되는 변환된 제2 음성 데이터의 적어도 하나의 음향 모델을 저장하도록 구성되는 데이터베이스, 제1 텍스트 데이터의 적어도 일부를 제1 음성 데이터의 적어도 하나의 음향 모델에 적어도 부분적으로 기초하여, 제1 합성된 음성 데이터로 전환하고 제2 텍스트 데이터의 적어도 일부를 변환된 제2 음성 데이터의 적어도 하나의 음향 모델에 적어도 부분적으로 기초하여, 제2 합성된 음성 데이터로 전환하도록 구성된 전환 유닛 및 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 재생하도록 구성된 재생 유닛을 포함한다.

일 예시에서, 컴퓨터 실행가능 명령어가 저장된 컴퓨터 판독가능 저장 매체로서, 컴퓨터 실행가능 명령어는, 실행에 응답하여, 음성 인터페이스 시스템이 제1 내레이터의 제1 음성 데이터 및 제2 내레이터의 제2 음성 데이터를 수신하는 단계; 제2 음성 데이터를 음성 변환 함수에 의하여 변환하는 단계; 제1 텍스트 데이터 및 제2 텍스트 데이터를 수신하는 단계; 상기 제1 텍스트 데이터의 적어도 일부를 제1 음성 데이터에 적어도 부분적으로 기초하여, 제1 합성된 음성 데이터로 전환하는 단계; 제2 텍스트 데이터의 적어도 일부를 변환된 제2 음성 데이터에 적어도 부분적으로 기초하여, 제2 합성된 음성 데이터로 전환하는 단계; 및 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 음성 인터페이스 시스템을 통하여 제공하는 단계를 포함하는 동작을 수행하도록 한다.

일 예시에서, 컴퓨터 실행가능 명령어가 저장된 컴퓨터 판독가능 저장 매체로서, 컴퓨터 실행가능 명령어는, 실행에 응답하여, 음성 인터페이스 시스템이 제1 텍스트 데이터 및 제2 텍스트 데이터를 외부 네트워크로부터 수신하는 단계, 제1 텍스트 데이터의 적어도 일부를 제1 음성 데이터에 적어도 부분적으로 기초하여, 제1 합성된 음성 데이터로 전환하는 단계, 제2 텍스트 데이터의 적어도 일부를 음성 변환 함수에 의해 제2 음성 데이터로부터 변환되는 변환된 제2 음성 데이터에 적어도 부분적으로 기초하여, 제2 합성된 음성 데이터로 전환하는 단계 및 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 음성 인터페이스 시스템을 통하여 제공하는 단계를 포함하는 동작을 수행하도록 한다.

이상의 요약은 단순히 예시적인 것으로서 어떠한 방식으로든 제한적으로 의도된 것이 아니다. 이하의 상세한 설명과 도면을 참조함으로써, 상술된 예시적인 양태들, 실시예들, 그리고 특징들에 더하여, 추가적인 양태들, 실시예들, 그리고 특징들 또한 명확해질 것이다.

본 개시의 전술한 특징 및 다른 특징은 첨부 도면과 결합하여, 다음의 설명 및 첨부된 청구범위로부터 더욱 충분히 명백해질 것이다. 이들 도면은 본 개시에 따른 단지 몇 개의 실시예를 묘사할 뿐이고, 따라서, 그 범위를 제한하는 것으로 고려되어서는 안 될 것임을 이해하면서, 본 개시는 첨부 도면의 사용을 통해 더 구체적이고 상세하게 설명될 것이다.
도 1은 음성 인터페이스 시스템이 사용자에게 복수의 텍스트 데이터에 기초한 복수의 음성 데이터를 복수의 서버로부터 외부 네트워크를 통해 제공하는 네트워크 시스템의 예시를 개략적으로 도시하고,
도 2는 음성 인터페이스 시스템에 대한 컴포넌트의 예시를 도시하는 개략적인 블록도를 도시하고,
도 3(A)는 두 개의 음성 데이터를 실질적으로 동시에 사용자에게 제공하도록 구성된 음성 인터페이스 시스템의 예시를 개략적으로 도시하고,
도 3(B)는 사용자 선택에 응답하여 추가적인 데이터를 제공하도록 구성된 음성 인터페이스 시스템의 예시를 개략적으로 도시하고,
도 4는 합성된 음성 데이터를 제공하기 위한 프로세스의 예시적인 흐름도를 도시하고,
도 5는 합성된 음성 데이터를 제공하기 위한 프로세스의 다른 예시적인 흐름도를 도시하고,
도 6은 음성 인터페이스 시스템에 대한 음성 처리 기법을 제공하는 데 이용될 수 있는 컴퓨터 프로그램 제품을 나타내며,
도 7은 음성 인터페이스 시스템에 대한 음성 처리 기법을 제공하는 데 이용될 수 있는 예시적인 컴퓨팅 장치를 도시하는 블록도이고, 모두 여기에서 설명된 적어도 일부 실시예에 따라 배열된다.

이하의 상세한 설명에서 본 개시의 일부를 이루는 첨부된 도면이 참조된다. 문맥에서 달리 지시하고 있지 않은 한, 통상적으로, 도면에서 유사한 부호는 유사한 컴포넌트를 나타낸다. 상세한 설명, 도면, 그리고 청구범위에 설명되는 예시적인 예시는 제한적으로 여겨지지 않는다. 본 개시에서 제시되는 대상의 범위 또는 사상에서 벗어나지 않으면서도 다른 예시가 이용되거나, 다른 변경이 이루어질 수 있다. 여기에서 일반적으로 설명되고, 도면에 도시되는 본 개시의 양태는 다양한 다른 구성으로 배열, 대체, 조합, 분리, 및 설계 될 수 있음과 이 모두가 여기에서 명백하게 고려됨이 기꺼이 이해될 것이다.

본 개시는, 그 중에서도, 음성 인터페이스에 관한 방법, 기기, 시스템, 장치 및 컴퓨터 프로그램 제품에 일반적으로 관련된다.

간단히 말하자면, 음성 인터페이스 시스템의 사용자에게 구술 정보(서로 쉽게 구별되는)의 복수의 항목을 동시에 제공하는 음성 인터페이스 시스템에 관한 기술이 일반적으로 기술된다. 일부 예시에서는, 음성 인터페이스 시스템은 외부 네트워크를 통해 복수의 텍스트 데이터를 수신할 수 있으며 복수의 텍스트 데이터 각각은 각각의 서버로부터 전송될 수 있다. 예컨대, 서버는 이메일 서버, 웹 서버 및 소셜 네트워킹 서비스(SNS) 서버를 포함할 수 있고, 텍스트 데이터는 이메일 메시지, 웹 페이지 및 SNS 메시지 등을 포함할 수 있으나, 이에 제한되지는 않는다. 음성 인터페이스 시스템은 각각의 텍스트 데이터(예컨대, 이메일 헤더, RSS(really simple syndication) 피드 정보, SNS 메시지의 송신자)의 적어도 일부를 음성 인터페이스 시스템의 데이터베이스에 저장된 상이한 음향 모델(acoustic model)을 이용하는 합성된 음성 데이터로 전환할 수 있다.

일부 예시에서, 데이터베이스는 복수의 음성 데이터의 복수의 음향 모델을 저장할 수 있다. 예컨대, 데이터베이스는 제1 음성 데이터의 적어도 하나의 음향 모델 및 변환된 제2 음성 데이터의 적어도 하나의 음향 모델을 저장할 수 있지만, 이에 제한되지는 않는다. 변환된 제2 음성 데이터는 제1 음성 데이터 및 변환된 제2 음성 데이터 간의 특징 차를 최대화하는 음성 변환 함수에 의해 제2 음성 데이터로부터 변환된다.

일부 실시예에서, 음성 인터페이스 시스템은 제1 음성 데이터의 적어도 하나의 음향 모델 및 변환된 제2 음성 데이터의 적어도 하나의 음향 모델에 각각 기초하여, 제1 텍스트 데이터 및 제2 텍스트 데이터를 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터로 전환할 수 있으며, 제1 및 제2 합성된 음성 데이터를 음성 인터페이스 시스템의 사용자에게 제공할 수 있다. 제1 음성 데이터와 변환된 제2 음성 데이터의 특징 차가 음성 변환 함수에 의해 최대화되었을 수 있으므로, 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터는 음성 인터페이스 시스템의 사용자에게 실질적으로 동시에 제공되더라도, 서로 쉽게 구별될 수 있다.

도 1은 여기에서 설명된 적어도 일부 실시예에 따라 음성 인터페이스 시스템이 사용자에게 복수의 텍스트 데이터에 기초한 복수의 음성 데이터를 복수의 서버로부터 외부 네트워크를 통해 제공하는 네트워크 시스템의 예시를 개략적으로 도시한다. 도 1에 도시된 바와 같이, 음성 인터페이스 시스템(100)은 제1 텍스트 데이터를 제1 서버(110)로부터, 제2 텍스트 데이터를 제2 서버(120)로부터 외부 네트워크(130)를 통해 수신할 수 있다. 예컨대, 제1 서버(110) 및 제2 서버(120) 각각은 이메일 메시지를 제공하는 이메일 서버, 웹 페이지를 제공하는 웹 서버 및 SNS 메시지를 제공하는 SNS 서버를 포함할 수 있으나, 이에 제한되지는 않는다. 도 1은 음성 인터페이스 시스템(100)이 텍스트 데이터를 두 개의 서버(제1 서버(110) 및 제2 서버(120))로부터 수신함을 도시하지만, 음성 인터페이스 시스템(100)은 외부 네트워크(130)을 통해 하나 이상의 다른 서버로부터 다른 텍스트 데이터를 더 수신할 수 있다. 일부 실시예에서, 음성 인터페이스 시스템(100)은 음성 인터페이스 시스템(100)에 직접 연결로 또는 내부 네트워크를 통하여 연결되는 하나 이상의 전자 장치로부터 텍스트 데이터를 수신할 수 있다.

음성 인터페이스 시스템(100)은 수신한 제1 및 제2 텍스트 데이터를 합성된 음성 데이터로 전환하고, 합성된 음성 데이터를 음성 인터페이스 시스템(100)의 사용자(140)에게 제공할 수 있다. 일부 실시예에서, 음성 인터페이스 시스템(100)은 음성 인터페이스 시스템(100)의 데이터베이스(도시되지 않음)를 참조함으로써 제1 텍스트 데이터의 적어도 일부 및 제2 텍스트 데이터의 적어도 일부를 각각 제1 합성된 음성 데이터(150) 및 제2 합성된 음성 데이터(160)로 전환할 수 있다. 데이터베이스는 이하에서 도 2를 참조하여 보다 상세히 설명될 것이다. 음성 인터페이스 시스템(100)은 이후 음성 인터페이스 시스템(100)의 사용자(140)에게 제1 합성된 음성 데이터(150) 및 제2 합성된 음성 데이터(160)를 동시에 제공할 수 있다.

일부 실시예에서, 음성 인터페이스 시스템(100)의 사용자(140)는 선택의 지시를 보여줌으로써 제1 합성된 음성 데이터(150) 또는 제2 합성된 음성 데이터(160) 중 하나를 선택할 수 있으며, 이는 이하 도 3을 참조하여 보다 상세히 설명될 것이다. 음성 인터페이스 시스템(100)은 제1 합성된 음성 데이터(150) 또는 제2 합성된 음성 데이터(160) 중 하나의 선택의 지시를 수신하고, 선택된 것에 대응하는 추가의 데이터를 음성 인터페이스 시스템(100)의 사용자(140)에게 제공할 수 있다.

도 2는 여기에서 설명된 적어도 일부 실시예에 따른 음성 인터페이스 시스템에 대한 구성 요소의 예시를 개략적으로 도시하는 개략적인 블록도를 도시한다. 음성 인터페이스 시스템(200)은 음성 처리 유닛(210), 데이터베이스(220), 전환 유닛(230), 재생(play-back) 유닛(240) 및 수신 유닛(250)을 포함할 수 있다. 개별의 컴포넌트로 도시되었지만, 요구되는 구현예에 따라, 다양한 컴포넌트가 추가적인 컴포넌트로 분할될 수 있거나, 더 적은 컴포넌트로 조합될 수 있거나, 제거될 수 있다.

음성 처리 유닛(210)은 음성 데이터에 기초하여 음향 모델을 생성하고, 음향 모델을 데이터베이스(220)에 저장하도록 구성될 수 있다. 일부 실시예에서, 음성 처리 유닛(210)은 제1 내레이터(narrator)의 제1 음성 데이터 및 제2 내레이터의 제2 음성 데이터를 수신할 수 있다. 음성 처리 유닛(210)은 이후 제1 내레이터의 제1 음성 데이터 및 제2 내레이터의 제2 음성 데이터 간의 특징 차를 최대화하는 음성 변환 함수를 결정할 수 있다. 특징 차는 조용한 환경에서의 최소 가청 레벨 및 주파수 영역에서의 마스킹 효과(masking effects)를 고려한 두 음성 간의 전력 스펙트럼(power spectrum)의 차일 수 있다. 일부 실시예에서, 음성 처리 유닛(210)은 제2 내레이터의 제2 음성 데이터를 음성 변환 함수로 변환하고 변환된 제2 음성 데이터의 적어도 하나의 음향 모델을 추출할 수 있다. 제1 내레이터의 제1 음성 데이터에 관해서는, 음성 처리 유닛(210)이 적어도 하나의 음향 모델을 원본 음성 데이터로부터 추출할 수 있다. 이러한 제1 음성 데이터 및 변환된 제2 음성 데이터의 음향 모델은 데이터베이스(220)에 저장될 수 있다.

일부 실시예에서, 제1 및 제2 음성 데이터가 일본어일 경우, 음성 처리 유닛(210)은 일본어 모음 소리(즉, "아", "이", "우", "에" 및 "오")에 기초하여 음성 변환 함수를 결정할 수 있다. 이는, 자음이 일본어에서 일반적으로 모음과 함께 나타나고, 따라서, 모음 소리의 발생의 빈도가 비교적 높을 수 있기 때문일 수 있다. 주파수 영역에서의 모음 소리의 파형 또한 일시적으로 안정적일 수 있다. 예컨대, 음성 처리 유닛(210)은 다음과 같은 방식으로 음성 변환 함수를 결정할 수 있지만, 이에 제한되지는 않는다. 먼저, 제1 내레이터의 제1 음성 데이터 내 소리 i를 주파수 영역에서의 F_i(f)로 나타내고, 그 마스킹 효과를 Mask_i(f)로 나타낸다. 또한, 조용한 환경에서의 최소 가청 레벨을 HT(f)로 나타낸다. 마지막으로, 제2 내레이터의 제2 음성 데이터 내 소리 j를 주파수 영역에서 G_j(f)로 나타낸다. 이후, 주파수 f에서 제1 음성 데이터 내 소리 i와 주파수 f에서 제2 음성 데이터 내 소리 j를 음성 변환 함수 Trans에 의해 변환함으로써 얻은 소리 간의 차가 이하 수학식 1로부터 얻어질 수 있다. 모든 주파수 성분에 대하여 차를 적분하고, 모든 i 및 j에 대한 적분 값을 합산하면, 이하 수학식 2에서 표현된 바와 같이, 제1 음성 데이터 및 제2 음성 데이터 간의 특징 차를 산출할 수 있다. 이러한 특징 차를 최대화할 수 있는 음성 변환 함수 Trans는 제2 내레이터의 제2 음성 데이터를 변환하는 데 이용될 수 있다.

일부 실시예에서, 특징 차를 최대화하는 음성 변환 함수를 결정했으면, 음성 처리 유닛(210)은 다음의 방식으로 제2 내레이터의 제2 음성 데이터의 적어도 하나의 음향 모델을 추출할 수 있다. 먼저, 음성 처리 유닛(210)은 제2 내레이터에 의해 소리내어 읽어진 음성학적으로 균형 잡힌 문장의 제2 음성 데이터를 수신할 수 있다. 이후, 음성 처리 유닛(210)은 특징 차를 최대화하는 음성 변환 함수로 음성학적으로 균형 잡힌 문장의 제2 음성 데이터를 변환할 수 있다. 음성 처리 유닛(210)은 음성학적으로 균형잡힌 문장의 제2 음성 데이터의 지속시간, 여기원(excitation source) 및/또는 음성 스펙트럼(speech spectra)을 분석하고 배워 변환된 제2 음성 데이터의 적어도 하나의 음향 모델을 추출할 수 있다. 도 2가 음성 처리 유닛(210)을 음성 인터페이스 시스템(200)의 일부로서 도시하지만, 당업자는 음성 처리 유닛(210)이 음성 인터페이스 시스템(200)으로부터의 개별 유닛일 수 있음을 인정할 것이다.

전환 유닛(230)은 데이터베이스(220)에 저장된 적어도 하나의 음향 모델에 적어도 부분적으로 기초하여 텍스트 데이터를 합성된 음성 데이터로 전환하도록 구성될 수 있다. 일부 실시예에서, 전환 유닛(230)은 텍스트 데이터를 외부 네트워크를 통해 외부 서버로부터 수신할 수 있다. 예컨대, 전환 유닛(230)은 이메일 메시지의 제1 텍스트 데이터를 이메일 서버로부터 그리고 웹 페이지의 제2 텍스트 데이터를 웹 서버로부터 외부 네트워크를 통해 수신할 수 있다. 전환 유닛(230)은 제1 내레이터의 제1 음성 데이터의 적어도 하나의 음향 모델에 적어도 부분적으로 기초하여 제1 텍스트 데이터의 적어도 일부를 제1 합성된 음성 데이터로 전환할 수 있다. 또한, 전환 유닛(230)은 제2 텍스트 데이터의 적어도 일부를 제2 내레이터의 변환된 제2 음성 데이터의 적어도 하나의 음향 모델에 적어도 부분적으로 기초하여 제2 합성된 음성 데이터로 전환할 수 있다. 제1 음성 데이터 및 변환된 제2 음성 데이터간의 특징 차가 위에서 논의된 바와 같이 음성 변환 함수에 의해 최대화되므로, 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터는, 실질적으로 동시에 제공되더라도, 서로 쉽게 구별될 수 있다.

일부 실시예에서, 전환 유닛(230)은 텍스트 데이터를 합성된 음성 데이터로 전환하기 위해 스피치 합성 모듈(speech synthesis module)을 포함할 수 있다. 스피치 합성 모듈은 갈라테아 토크(Galatea Talk)와 같은 인간형 인터페이스(human type interface)를 포함할 수 있지만, 이에 제한되지는 않는다. 예컨대, 전환 유닛(230)은 제1 음성 데이터의 적어도 하나의 음향 모델을 스피치 합성 모듈로 결합하고, 이에 적어도 부분적으로 기초하여, 제1 텍스트 데이터의 적어도 일부를 제1 합성된 음성 데이터로 전환할 수 있다. 마찬가지로, 전환 유닛(230)은 변환된 제2 음성 데이터의 적어도 하나의 음향 모델을 스피치 합성 모듈로 결합하고, 이에 적어도 부분적으로 기초하여, 제2 텍스트 데이터의 적어도 일부를 제2 합성된 음성 데이터로 전환할 수 있다.

재생 유닛(240)은 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 재생하도록 구성될 수 있다. 일부 실시예에서, 재생 유닛(240)은 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 재생하고 사운드 장치(260)를 통해 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 실직적으로 동시에 음성 인터페이스 시스템(200)의 사용자에게 제공할 수 있다.

수신 유닛(250)은 음성 인터페이스 시스템(200)의 사용자에 의한 제1 합성된 음성 데이터 또는 제2 합성된 음성 데이터 중 하나의 선택의 지시를 수신하도록 구성될 수 있다. 일부 실시예에서, 수신 유닛(250)은 선택의 지시를 선택 장치(270)로부터 수신할 수 있다. 선택 장치(270)는 음성 인터페이스 시스템(200)의 사용자에게 가까이 배치되고 제1 합성된 음성 데이터 또는 제2 합성된 음성 데이터 중 하나의 사용자의 선택을 검출하도록 구성될 수 있다. 도 2가 사운드 장치(260) 및 선택 장치(270)가 개별의 블록으로 도시하지만, 당업자는 두 장치가 헤드셋과 같이 사용자 장치의 단일부로 결합될 수 있다는 점을 인정할 것이다. 이러한 실시예에서, 음성 인터페이스 시스템(200)의 사용자가 제1 합성된 음성 데이터를 사용자의 오른쪽 귀를 통해 듣고 제2 합성된 음성 데이터를 사용자의 왼쪽 귀를 통해 들을 수 있으며, 이들 둘 다 음성 인터페이스 시스템(200)에 의해 제공될 수 있다. 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 듣는 동안, 음성 인터페이스 시스템(200)의 사용자는 제1 합성된 음성 데이터 또는 제2 합성된 음성 데이터 중 하나에 관한 추가의 정보를 듣고 싶어 할 수 있다. 사용자가 제1 합성된 음성 데이터에 관한 추가의 데이터를 듣기를 원할 경우, 사용자는 제1 합성된 음성 데이터의 선택의 지시를 나타낼 수 있다. 이 경우, 선택 장치(270)는 선택의 지시를 검출하고, 이를 음성 인터페이스 시스템(200)의 수신 유닛(250)에 제공할 수 있다. 선택의 지시를 수신함에 응답하여, 음성 인터페이스 시스템(200)은 선택된 제1 합성된 음성 데이터에 대응하는 추가의 데이터를 음성 인터페이스 시스템(200)의 사용자에게 더 제공할 수 있다.

도 3(A)는 여기에서 설명된 적어도 일부 실시예에 따라 두 개의 음성 데이터를 실질적으로 동시에 사용자에게 제공하도록 구성된 음성 인터페이스 시스템의 예시를 도시한다. 도 3(A)에 도시된 바와 같이, 음성 인터페이스 시스템(300)은 제1 텍스트 데이터(310) 및 제2 텍스트 데이터(320)를 수신하고, 제1 텍스트 데이터(310)의 적어도 일부 및 제2 텍스트 데이터(320)의 적어도 일부를 각각 제1 합성된 음성 데이터(330) 및 제2 합성된 음성 데이터(340)로 전환할 수 있다. 수신 프로세스와 전환 프로세스 및 음성 인터페이스 시스템(300)의 컴포넌트는 위에서 도 2를 참조하여 설명된 바와 유사할 수 있다. 이하, 설명은 제1 텍스트 데이터(310)는 이메일 메시지일 수 있고, 제2 텍스트 데이터(320)는 뉴스 기사의 웹 페이지일 수 있다는 가정에 적어도 부분적으로 기초할 수 있다. 예컨대, 제1 텍스트 데이터(310)는 송신자 정보 및 이메일 내용을 포함할 수 있고, 제2 텍스트 데이터(320)는 뉴스 제목 및 뉴스 내용을 포함할 수 있지만, 이에 제한되지는 않는다. 일부 실시예에서, 음성 인터페이스 시스템(300)은 음성 인터페이스 시스템(300)의 데이터베이스에 저장된 제1 음향 모델에 적어도 부분적으로 기초하여 제1 텍스트 데이터(310)의 송신자 정보를 제1 합성된 음성 데이터(330)로 전환할 수 있다. 마찬가지로, 음성 인터페이스 시스템(300)은 음성 인터페이스 시스템(300)의 데이터베이스에 저장된 제2 음향 모델에 적어도 부분적으로 기초하여 제2 텍스트 데이터(320)의 뉴스 제목을 제2 합성된 음성 데이터(340)로 전환할 수 있다.

음성 인터페이스 시스템(300)의 사용자(350)는 헤드셋(360)을 착용할 수 있고, 헤드셋(360)은 음성 인터페이스 시스템(300)에 동작적으로 연결될 수 있다. 헤드셋(360)은 사용자(350)의 양쪽 귀에 대한 두 개의 사운드 스피커 및 사용자의 선택을 검출하기 위한 센서를 포함할 수 있다. 예컨대, 센서는 자이로 센서(gyro sensor)를 포함할 수 있지만, 이에 제한되지는 않는다. 또한, 헤드셋(360)은 제1 합성된 음성 데이터(330) 및 제2 합성된 음성 데이터(340)를 수신하고 이를 음성 인터페이스 시스템(300)의 사용자(350)에게 제공하도록 구성될 수 있다. 사용자(350)는 우측으로부터의 제1 합성된 음성 데이터(330) 및 좌측으로부터의 제2 합성된 음성 데이터(340)를 동시에 들을 수 있다. 도 2를 참조하여 논의된 바와 같이, 제1 합성된 음성 데이터(330) 및 제2 합성된 음성 데이터(340) 간의 특징 차가 최대화되므로, 제1 합성된 음성 데이터(330) 및 제2 합성된 음성 데이터(340)가 실질적으로 동시에 사용자(350)에게 제공되더라도, 사용자(350)는 제1 합성된 음성 데이터(330) 및 제2 합성된 음성 데이터(340)를 쉽게 구별할 수 있다.

제1 합성된 음성 데이터(330) 및 제2 합성된 음성 데이터(340)(둘 다 원본 텍스트 데이터의 일부, 즉, 송신자 정보 및 뉴스 제목을 포함할 수 있음)를 듣는 동안 또는 들은 후, 음성 인터페이스 시스템(300)의 사용자(350)는 제1 합성된 음성 데이터(330) 또는 제2 합성된 음성 데이터(340) 중 어느 하나에 관한 정보를 더 듣고 싶어할 수 있다. 도 3(A)에 도시된 바와 같이, 사용자(350)가 제1 합성된 음성 데이터(330)에 관한 추가적인 데이터(즉, 이메일 내용)를 듣기를 원할 경우, 사용자는 머리를 제1 합성된 음성 데이터(330)가 들리는 방향(즉, 머리의 오른쪽)으로 기울임으로써, 제1 합성된 음성 데이터(330)의 선택의 지시를 나타낼 수 있다. 그러한 경우, 헤드셋(360)의 자이로 센서는 선택의 지시(머리를 오른쪽으로 기울임)를 검출하고 음성 인터페이스 시스템(300)에 지시를 제공할 수 있다.

도 3(B)는 여기에서 설명된 적어도 일부 실시예에 따른 사용자 선택에 응답하여 추가적인 데이터를 제공하도록 구성된 음성 인터페이스 시스템의 예시를 개략적으로 도시한다. 도 3(B)에 도시된 바와 같이, 제1 합성된 데이터(330)의 선택의 지시를 수신함에 응답하여, 음성 인터페이스 시스템(300)은 음성 인터페이스 시스템(300)의 사용자(350)에게 제1 합성된 음성 데이터(330)에 대응하는 추가적인 정보(즉, 이메일 내용)를 제공할 수 있다.

도 4는 여기에서 설명된 적어도 일부 실시예에 따른 합성된 음성 데이터를 제공하기 위한 프로세스의 예시적인 흐름도의 예시를 도시한다. 도 4의 방법은 위에서 논의된 음성 처리 유닛(210), 데이터베이스(220), 전환 유닛(230), 재생 유닛(240) 및 수신 유닛(250)을 포함하는 음성 인터페이스 시스템(200)을 이용하여 구현될 수 있다. 예시적인 프로세스는 블록(S410, S420, S430, S440, S450, S460, S470, 및/또는 S480) 중 하나 이상의 의해 도시된 바와 같은 하나 이상의 동작, 작용 또는 기능을 포함할 수 있다. 개별의 블록으로 도시되었지만, 다양한 블록이 추가적인 블록으로 분할될 수 있거나, 더 적은 블록으로 조합될 수 있거나, 제거될 수 있고 그에 따라 이러한 점에 제한되지 않는다. 프로세스는 블록(S410)에서 시작할 수 있다.

블록(S410)에서, 음성 인터페이스 시스템은 제1 내레이터로부터의 제1 음성 데이터 및 제2 내레이터로부터의 제2 음성 데이터를 수신할 수 있다. 일부 실시예에서, 제1 내레이터 및 제2 내레이터는, 이후의 프로세스에서, 제2 내레이터의 제2 음성 데이터가 변환되어 제1 내레이터의 제1 음성 데이터 및 제2 내레이터의 제2 음성 데이터 간의 최대화된 특징 차를 가지도록, 상이한 음성 특징을 가질 수 있다. 예컨대, 제1 내레이터는 남성(즉, 남성형 음성), 제2 내레이터는 여성(즉, 여성형 음성)일 수 있다. 프로세스는 블록(S410)에서 블록(S420)으로 계속될 수 있다.

블록(S420)에서, 음성 인터페이스 시스템은 제2 음성 데이터를 음성 변환 함수에 의해 변환할 수 있다. 음성 변환 함수는 제1 음성 데이터 및 변환된 제2 음성 데이터 간의 특징 차를 최대화하여, 제1 음성 데이터 및 변환된 제2 음성 데이터가 서로 분명하게 구별될 수 있도록 할 수 있다. 일부 실시예에서, 음성 변환 함수는 위에서 논의된 음성 처리 유닛(210)을 포함하는 음성 처리 모듈을 이용하여 결정될 수 있다. 프로세스는 블록(S420)에서 블록(S430)으로 계속될 수 있다.

블록(S430)에서, 음성 인터페이스 시스템은 제1 음성 데이터의 적어도 하나의 음향 모델 및 변환된 제2 음성 데이터의 적어도 하나의 음향 모델을 추출할 수 있다. 일부 실시예에서, 음향 모델은 음성 인터페이스 시스템의 데이터베이스에 저장되고, 텍스트 데이터를 합성된 음성 데이터로 전환하기 위해 이용될 수 있다. 프로세스는 블록(S430)에서 블록(S440)으로 계속될 수 있다.

블록(S440)에서, 음성 인터페이스 시스템은 제1 텍스트 데이터의 적어도 일부를, 제1 음성 데이터에 적어도 부분적으로 기초하여, 제1 합성된 음성 데이터로 전환할 수 있다. 일부 실시예에서, 음성 인터페이스 시스템은 제1 텍스트 데이터의 적어도 일부를 제1 음성 데이터의 적어도 하나의 음향 모델을 이용하여 제1 합성된 음성 데이터로 전환할 수 있다. 프로세스는 블록(S440)에서 블록(S450)으로 계속될 수 있다.

블록(S450)에서, 음성 인터페이스 시스템은 제2 텍스트 데이터의 적어도 일부를, 변환된 제2 음성 데이터에 기초하여 제2 합성된 음성 데이터로 전환할 수 있다. 일부 실시예에서, 음성 인터페이스 시스템은 제2 텍스트 데이터의 적어도 일부를 변환된 제2 음성 데이터의 적어도 하나의 음향 모델을 이용하여 제2 합성된 음성 데이터로 전환할 수 있다. 위에서 논의된 바와 같이, 제1 음성 데이터 및 변환된 제2 음성 데이터 간의 특징 차가 음성 변환 함수에 의해 최대화되었으므로, 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터가 실질적으로 동시에 제공되더라도, 서로 쉽게 구별될 수 있다. 프로세스는 블록(S450)에서 블록(S460)으로 계속 될 수 있다.

블록(S460)에서, 음성 인터페이스 시스템은 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 음성 인터페이스 시스템의 사용자에게 제공할 수 있다. 일부 실시예에서, 음성 인터페이스 시스템은 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 시간 축 상에서 병렬로(즉, 실질적으로 동시에) 제공할 수 있다. 위에서 논의된 바와 같이, 사용자는 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터가 동시에 제공되더라도 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 쉽게 구별할 수 있다. 프로세스는 블록(S460)에서 블록(S470)으로 계속 될 수 있다.

블록(S470)에서, 음성 인터페이스 시스템은 음성 인터페이스 시스템의 사용자에 의한 제1 합성된 음성 데이터 또는 제2 합성된 음성 데이터 중 하나의 선택의 지시를 수신할 수 있다. 프로세스는 블록(S470)에서 블록(S480)으로 계속될 수 있다.

블록(S480)에서, 음성 인터페이스 시스템은 선택된 것에 대응하는 추가적인 데이터를 음성 인터페이스 시스템의 사용자에게 제공할 수 있다. 일부 실시예에서, 추가적인 데이터는 합성된 음성 데이터일 수 있다. 일부 실시예에서, 제1 및 제2 합성된 음성 데이터는 원본 텍스트 데이터의 일부 정보를 포함할 수 있고, 추가적인 데이터는 원본 텍스트 데이터의 다른 정보를 포함할 수 있다. 예컨대, 제1 텍스트 데이터는 송신자 정보 및 이메일 내용을 포함하는 이메일 메시지일 수 있으니, 이에 제한되지는 않는다. 그러한 경우, 제1 합성된 음성 데이터는 송신자 정보에 관한 정보만을 포함할 수 있고, 추가적인 데이터는 이메일 내용에 관한 정보를 포함할 수 있다.

도 5는 여기에서 설명된 적어도 일부 실시예에 따른 합성된 음성 데이터를 제공하기 위한 프로세스의 다른 예시적인 흐름도를 도시한다. 도5에서의 방법은 위에서 논의된 음성 처리 유닛(210), 데이터베이스(220), 전환 유닛(230), 재생 유닛(240) 및 수신 유닛(250)을 포함하는 음성 인터페이스 시스템(200)을 이용하여 구현될 수 있다. 예시적인 프로세스는 블록(S510, S520, S530, 및/또는 S540) 중 하나 이상의 의해 도시된 바와 같은 하나 이상의 동작, 작용 또는 기능을 포함할 수 있다. 개별의 블록으로 도시되었지만, 요구되는 구현예에 따라, 다양한 블록이 추가적인 블록으로 분할될 수 있거나, 더 적은 블록으로 조합될 수 있거나, 제거될 수 있다. 프로세스는 블록(S510)에서 시작할 수 있다.

블록(S510)에서, 음성 인터페이스 시스템은 제1 텍스트 데이터 및 제2 텍스트 데이터를 외부 네트워크로부터 수신할 수 있다. 예컨대, 제1 텍스트 데이터 및/또는 제2 텍스트 데이터는 이메일 서버로부터의 이메일 메시지, 웹 서버로부터의 웹 페이지, 또는 SNS 서버로부터의 SNS 메시지일수 있으나, 이에 제한되지는 않는다. 프로세스는 블록(S510)에서 블록(S520)으로 계속될 수 있다.

블록(S520)에서, 음성 인터페이스 시스템은 제1 텍스트 데이터의 적어도 일부를 제1 음성 데이터에 기초하여 제1 합성된 음성 데이터로 전환할 수 있다. 일부 실시예에서, 음성 인터페이스 시스템은 제1 텍스트 데이터의 적어도 일부를 음성 인터페이스 시스템의 데이터베이스에 저장된 제1 음성 데이터의 적어도 하나의 음향 모델을 이용하여 제1 합성된 음성 데이터로 전환할 수 있다. 프로세스는 블록(S520)에서 블록(S530)으로 계속될 수 있다.

블록(S530)에서, 음성 인터페이스 시스템은 제2 텍스트 데이터의 적어도 일부를 음성 변환 함수에 의해 제2 음성 데이터로부터 변환되는 변환된 제2 음성 데이터에 기초하여 제2 합성된 음성 데이터로 전환할 수 있다. 음성 변환 함수는 제1 음성 데이터 및 변환된 제2 음성 데이터 간의 특징 차를 최대화하여 제1 음성 데이터 및 변환된 제2 음성 데이터를 서로 명확하게 구별할 수 있도록 한다. 일부 실시예에서, 음성 인터페이스 시스템은 제2 텍스트 데이터의 적어도 일부를 음성 인터페이스 시스템의 데이터베이스에 저장된 변환된 제2 음성 데이터의 적어도 하나의 음향 모델을 이용하여 제2합성된 음성 데이터로 전환할 수 있다. 프로세스는 블록(S530)에서 블록(S540)으로 계속될 수 있다.

블록(S540)에서, 음성 인터페이스 시스템은 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 제공할 수 있다. 일부 실시예에서, 음성 인터페이스 시스템은 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 시간 축 상에서 병렬로(즉, 실질적으로 동시에) 제공할 수 있다. 위에서 논의된 바와 같이, 제1 음성 데이터 및 변환된 제2 음성 데이터 간의 특징 차는 음성 변환 함수에 의해 최대화되었으므로, 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터가 실질적으로 동시에 제공되더라도, 서로 쉽게 구별될 수 있다.

당업자는, 여기에서 개시된 이러한 프로세스 및 방법과 다른 프로세스 및 방법에 대해, 프로세스 및 방법에서 수행되는 기능이 상이한 순서로 구현될 수 있음을 인정할 것이다. 또한, 개략적인 단계 및 동작은 단지 예시로서 제공된 것이고, 단계 및 동작의 일부는, 개시된 실시예의 본질을 손상시키지 않으면서, 선택적일 수 있거나, 더 적은 단계 및 동작으로 조합될 수 있거나, 추가적인 단계 및 동작으로 확장될 수 있다.

도 6은 여기에서 설명된 적어도 일부 실시예에 따른 음성 인터페이스를 제공하는 데 이용될 수 있는 컴퓨터 프로그램 제품(600)을 나타낸다. 프로그램 제품(600)은 신호 포함 매체(signal bearing medium)(602)를 포함할 수 있다. 신호 포함 매체(602)는 예컨대, 프로세서에 의해 실행되면, 도 1 내지 도 5에 관하여 상술된 기능을 제공할 수 있는 하나 이상의 명령어(604)를 포함할 수 있다. 예컨대, 명령어(604)는 제1 내레이터의 제1 음성 데이터 및 제2 내레이터의 제2 음성 데이터를 수신하기 위한 하나 이상의 명령어, 제2 음성 데이터를 음성 변환 함수에 의해 변환하기 위한 하나 이상의 명령어, 제1 텍스트 데이터의 적어도 일부를 제1 음성 데이터에 기초하여 제1 합성된 음성 데이터로 전환하기 위한 하나 이상의 명령어, 제2 텍스트 데이터의 적어도 일부를 변환된 제2 음성 데이터에 기초하여 제2 합성된 음성 데이터로 전환하기 위한 하나 이상의 명령어 및 제1 합성된 음성 데이터 및 제2 합성된 음성 데이터를 음성 인터페이스 시스템을 통하여 제공하기 위한 하나 이상의 명령어를 포함할 수 있다. 따라서, 예컨대, 도 2의 시스템을 참조하면, 음성 인터페이스 시스템(200)은 명령어(604)에 대해, 도 4에 도시된 블록중 하나 이상을 착수할 수 있다.

일부 구현예에서, 신호 포함 매체(602)는 하드 디스크 드라이브, 컴팩트 디스크(CD), 디지털 다기능 디스크(DVD), 디지털 테이프, 메모리 등과 같은 컴퓨터 판독가능한 매체(606)를 포함할 수 있으나, 이에 제한되지는 않는다. 일부 구현예에서, 신호 포함 매체(602)는 메모리, 판독/기입(R/W) CD, R/W DVD 등과 같은 기록가능 매체(608)를 포함할 수 있으나, 이에 제한되지는 않는다. 일부 구현예에서, 신호 포함 매체(602)는 다지털 및/또는 아날로그 통신 매체(예컨대, 광섬유 케이블(fiber optic cable), 도파관(waveguide), 유선 통신 링크, 무선 통신 링크 등)와 같은 통신 매체(610)를 포함할 수 있으나, 이에 제한되지는 않는다. 따라서, 예컨대, 프로그램 제품(600)은 신호 포함 매체(602)가 무선 통신 매체(610)(예컨대, IEEE 802.11 표준에 따르는 무선 통신 매체)에 의해 전달되는 RF 신호 포함 매체(602)에 의하여 음성 인터페이스 시스템(200)의 하나 이상의 모듈로 전달될 수 있다.

도 7은 여기에서 설명된 적어도 일부 실시예에 따른 음성 인터페이스를 제공하는 데 이용될 수 있는 컴퓨팅 장치(700)의 예시를 도시하는 블록도이다. 매우 기본적인 구성(702)에서, 컴퓨팅 장치(700)는 보통 하나 이상의 프로세서(704) 및 시스템 메모리(706)를 포함할 수 있다. 메모리 버스(708)가 프로세서(704)와 시스템 메모리(706) 사이의 통신을 위해 사용될 수 있다.

요구되는 구성에 따라, 프로세서(704)는 마이크로프로세서(μP), 마이크로컨트롤러(μC), 디지털 신호 프로세서(DSP) 또는 그 임의의 조합을 포함하는 임의의 유형일 수 있지만, 이에 제한되는 것은 아니다. 프로세서(704)는 레벨 1 캐시(710) 및 레벨 2 캐시(712)와 같은 하나 이상의 레벨의 캐싱, 프로세서 코어(714) 및 레지스터(716)를 포함할 수 있다. 예시적인 프로세서 코어(714)는 ALU(arithmetic logic unit), FPU(floating point unit), DSP 코어(digital signal processing core), 또는 그 임의의 조합을 포함할 수 있다. 예시적인 메모리 컨트롤러(718)는 또한 프로세서(704)와 사용될 수 있거나, 또는 몇몇 구현예에서, 메모리 컨트롤러(718)는 프로세서(704)의 내부 부품일 수 있다.

요구되는 구성에 따라, 시스템 메모리(706)는 (RAM과 같은) 휘발성 메모리, (ROM, 플래시 메모리 등과 같은) 비휘발성 메모리, 또는 그 임의의 조합을 포함할 수 있지만, 이에 제한되지 않는 임의의 유형일 수 있다. 시스템 메모리(706)는 운영 체제(720), 하나 이상의 애플리케이션(722), 및 프로그램 데이터(724)를 포함할 수 있다.

일부 실시예에서, 애플리케이션(722)은, 음성 인터페이스가 제공될 수 있도록 운영 체제(720) 상에서 프로그램 데이터(724)와 동작하도록 배열될 수 있다. 이러한 기술된 기본 구성(702)은 파선 내의 컴포넌트에 의해 도 7에 도시된다.

컴퓨팅 장치(700)는 추가적인 특징 또는 기능, 및 기본 구성(702)과 임의의 요구되는 장치와 인터페이스 간 통신을 용이하게 하기 위한 추가적인 인터페이스를 가질 수 있다. 예컨대, 버스/인터페이스 컨트롤러(730)는 저장 인터페이스 버스(734)를 통한 기본 구성(702)과 하나 이상의 데이터 저장 장치(732) 간의 통신을 용이하게 하는 데 사용될 수 있다. 데이터 저장 장치(732)는 분리형 저장 장치(736), 비분리형 저장 장치(738), 또는 그들의 조합일 수 있다. 분리형 저장 장치 및 비분리형 저장 장치의 예로는, 몇 가지 말하자면, 플렉서블 디스크 드라이브 및 하드 디스크 드라이브(HDD)와 같은 자기 디스크 장치, 컴팩트 디스크(CD) 드라이브 또는 디지털 다기능 디스크(DVD) 드라이브와 같은 광 디스크 드라이브, 고체 상태 드라이브(solid state drive, SSD), 및 테이프 드라이브가 포함된다. 예시적인 컴퓨터 저장 매체는, 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성의, 분리형 및 비분리형 매체를 포함할 수 있다.

시스템 메모리(706), 분리형 저장 장치(736) 및 비분리형 저장 장치(738)는 컴퓨터 저장 매체의 예이다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크(DVD) 또는 다른 광학 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨팅 장치(700)에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만, 이에 제한되는 것은 아니다. 그러한 임의의 컴퓨터 저장 매체는 컴퓨팅 장치(700)의 일부일 수 있다.

컴퓨팅 장치(700)는 버스/인터페이스 컨트롤러(730)를 통한 다양한 인터페이스 장치(예컨대, 출력 장치(742), 주변 인터페이스(744) 및 통신 장치(746))로부터 기본 구성(702)으로의 통신을 용이하게 하기 위한 인터페이스 버스(740)도 포함할 수 있다. 예시적인 출력 장치(742)는 그래픽 처리 유닛(748) 및 오디오 처리 유닛(750)을 포함하며, 이는 하나 이상의 A/V 포트(752)를 통해 디스플레이 또는 스피커와 같은 다양한 외부 장치로 통신하도록 구성될 수 있다. 예시적인 주변 인터페이스(744)는 직렬 인터페이스 컨트롤러(754) 또는 병렬 인터페이스 컨트롤러(756)를 포함하며, 이는 하나 이상의 I/O 포트(758)를 통해 입력 장치(예컨대, 키보드, 마우스, 펜, 음성 입력 장치, 터치 입력 장치 등) 또는 다른 주변 장치(예컨대, 프린터, 스캐너 등)와 같은 외부 장치와 통신하도록 구성될 수 있다. 예시적인 통신 장치(746)는 네트워크 컨트롤러(760)를 포함하며, 이는 하나 이상의 통신 포트(764)를 통해 네트워크 통신 상에서의 하나 이상의 다른 컴퓨팅 장치(762)와의 통신을 용이하게 하도록 배치될 수 있다.

네트워크 통신 링크는 통신 매체의 일 예시일 수 있다. 통신 매체는 보통 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파 또는 다른 전송 메커니즘 같은 변조된 데이터 신호 내의 다른 데이터에 의해 구현될 수 있고, 임의의 정보 전달 매체를 포함할 수 있다. "변조된 데이터 신호"는 신호 내에 정보를 인코딩하기 위한 방식으로 설정되거나 변경된 특성 중 하나 이상을 갖는 신호일 수 있다. 제한적이지 않은 예시로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속과 같은 유선 매체, 및 음파, 무선 주파수(RF), 마이크로웨이브, 적외선(IR) 및 다른 무선 매체와 같은 무선 매체를 포함할 수 있다. 여기서 사용되는 컴퓨터 판독가능 매체라는 용어는 저장 매체 및 통신 매체 둘 다를 포함할 수 있다.

컴퓨팅 장치(700)는, 휴대 전화, PDA(personal data assistant), 개인용 미디어 플레이어 장치, 무선 웹-워치(web-watch) 장치, 개인용 헤드셋 장치, 특수 용도 장치, 또는 위 기능 중 임의의 것을 포함하는 하이브리드 장치 같은 소형 폼 팩터(small-form factor)의 휴대용(또는 모바일) 전자 장치의 일부로서 구현될 수 있다. 컴퓨팅 장치(700)는 또한 랩톱 컴퓨터 및 랩톱이 아닌 컴퓨터 구성을 모두 포함하는 개인용 컴퓨터로서 구현될 수 있거나 워크스테이션 또는 서버 구성으로 구현될 수 있다.

본 개시는 다양한 태양의 예시로서 의도된 본 출원에 기술된 특정 실시예들에 제한되지 않을 것이다. 당업자에게 명백할 바와 같이, 많은 수정과 변형이 그 사상과 범위를 벗어나지 않으면서 이루어질 수 있다. 여기에 열거된 것들에 더하여, 본 개시의 범위 안에서 기능적으로 균등한 방법과 장치가 위의 설명으로부터 당업자에게 명백할 것이다. 그러한 수정과 변형은 첨부된 청구항의 범위에 들어가도록 의도된 것이다. 본 개시는 첨부된 청구항의 용어에 의해서만, 그러한 청구항에 부여된 균등물의 전 범위와 함께, 제한될 것이다. 본 개시가 물론 다양할 수 있는 특정 방법, 시약, 합성 구성 또는 생물학적 시스템에 제한되지 않는 것으로 이해될 것이다. 또한, 여기에서 사용된 용어는 단지 특정 실시예들을 기술하기 위한 목적이고, 제한하는 것으로 의도되지 않음이 이해될 것이다.

여기에서 실질적으로 임의의 복수 및/또는 단수의 용어의 사용에 대하여, 당업자는 맥락 및/또는 응용에 적절하도록, 복수를 단수로 및/또는 단수를 복수로 해석할 수 있다. 다양한 단수/복수의 치환은 명확성을 위해 여기에서 명시적으로 기재될 수 있다.

당업자라면, 일반적으로 본 개시에 사용되며 특히 첨부된 청구범위(예를 들어, 첨부된 청구범위)에 사용된 용어들이 일반적으로 "개방적(open)" 용어(예를 들어, 용어 "포함하는"은 "포함하지만 이에 제한되지 않는"으로, 용어 "갖는"는 "적어도 갖는"으로, 용어 "포함하다"는 "포함하지만 이에 한정되지 않는" 등으로 해석되어야 함)로 의도되었음을 이해할 것이다. 또한, 당업자라면, 도입된 청구항의 기재사항의 특정 수가 의도된 경우, 그러한 의도가 청구항에 명시적으로 기재될 것이며, 그러한 기재사항이 없는 경우, 그러한 의도가 없음을 또한 이해할 것이다. 예를 들어, 이해를 돕기 위해, 이하의 첨부 청구범위는 "적어도 하나" 및 "하나 이상" 등의 도입 구절의 사용을 포함하여 청구항 기재사항을 도입할 수 있다. 그러나, 그러한 구절의 사용이, 부정관사 "하나"("a" 또는 "an")에 의한 청구항 기재사항의 도입이, 그러한 하나의 기재사항을 포함하는 실시예들로, 그러한 도입된 청구항 기재사항을 포함하는 특정 청구항을 제한함을 암시하는 것으로 해석되어서는 안되며, 동일한 청구항이 도입 구절인 "하나 이상" 또는 "적어도 하나" 및 "하나"("a" 또는 "an")과 같은 부정관사(예를 들어, "하나"는 "적어도 하나" 또는 "하나 이상"을 의미하는 것으로 해석되어야 함)를 포함하는 경우에도 마찬가지로 해석되어야 한다. 이는 청구항 기재사항을 도입하기 위해 사용된 정관사의 경우에도 적용된다. 또한, 도입된 청구항 기재사항의 특정 수가 명시적으로 기재되는 경우에도, 당업자라면 그러한 기재가 적어도 기재된 수(예를 들어, 다른 수식어가 없는 "두개의 기재사항"을 단순히 기재한 것은, 적어도 두 개의 기재사항 또는 두 개 이상의 기재사항을 의미함)를 의미하도록 해석되어야 함을 이해할 것이다. 또한, "A, B 및 C 등 중의 적어도 하나"와 유사한 규칙이 사용된 경우에는, 일반적으로 그러한 해석은 당업자가 그 규칙을 이해할 것이라는 전제가 의도된 것이다(예를 들어, "A, B 및 C 중의 적어도 하나를 갖는 시스템"은, A만을 갖거나, B만을 갖거나, C만을 갖거나, A 및 B를 함께 갖거나, A 및 C를 함께 갖거나, B 및 C를 함께 갖거나, A, B, 및 C를 함께 갖는 시스템 등을 포함하지만 이에 제한되지 않음). "A, B 또는 C 등 중의 적어도 하나"와 유사한 규칙이 사용된 경우에는, 일반적으로 그러한 해석은 당업자가 그 규칙을 이해할 것이라는 전제가 의도된 것이다(예를 들어, "A, B 또는 C 중의 적어도 하나를 갖는 시스템"은, A만을 갖거나, B만을 갖거나, C만을 갖거나, A 및 B를 함께 갖거나, A 및 C를 함께 갖거나, B 및 C를 함께 갖거나, A, B, 및 C를 함께 갖는 시스템 등을 포함하지만 이에 제한되지 않음). 또한 당업자라면, 실질적으로 임의의 이접 접속어(disjunctive word) 및/또는 두 개 이상의 대안적인 용어들을 나타내는 구절은, 그것이 상세한 설명, 청구범위 또는 도면에 있는지와 상관없이, 그 용어들 중의 하나, 그 용어들 중의 어느 하나, 또는 그 용어들 두 개 모두를 포함하는 가능성을 고려했음을 이해할 것이다. 예를 들어, "A 또는 B"라는 구절은 "A" 또는 "B" 또는 "A 및 B"의 가능성을 포함하는 것으로 이해될 것이다.

추가적으로, 개시의 특징 또는 양태가 마쿠시(Markush) 그룹으로 기술되는 경우, 개시는 마쿠시 그룹의 임의의 개별 요소 또는 요소들의 하위 그룹 역시 포함하고 있다는 것을 당업자는 인식할 것이다.

당업자에게 이해될 것과 같이, 임의의 그리고 모든 목적에서든, 기술 내용을 제공하는 것 등에 있어서, 여기에 개시되어 있는 모든 범위는 임의의 그리고 모든 가능한 하위범위와 그러한 하위범위의 조합을 또한 포함한다. 임의의 열거된 범위는 적어도 1/2, 1/3, 1/4, 1/5, 1/10 등으로 나누어지는 동일한 범위를 충분히 설명하고 실시가능하게 하는 것으로서 쉽게 인식될 수 있다. 제한하지 않는 예시로서, 여기서 논의되는 각각의 범위는 하위 1/3, 중앙 1/3, 상위 1/3 등으로 나누어질 수 있다. 또한, "까지", "적어도" 등과 같은 언어는 기재된 수를 포함하며, 전술한 하위범위로 후속적으로 나누어질 수 있는 범위를 지칭함이 당업자에게 이해되어야 한다. 마지막으로, 범위는 각각의 개별 요소를 포함함이 이해되어야 한다. 따라서, 예를 들어, 1-3개의 셀을 갖는 그룹은 1, 2 또는 3개의 셀을 갖는 그룹들을 의미한다. 유사하게, 1-5개의 셀을 갖는 그룹은 1, 2, 3, 4 또는 5개의 셀을 갖는 그룹을 의미한다.

전술로부터, 본 개시의 다양한 실시예가 예시의 목적을 위해 여기에서 기술되었고, 다양한 수정이 본 개시의 사상과 범위를 벗어나지 않으면서 이루어질 수 있음이 인정될 것이다. 따라서, 여기에서 개시된 다양한 실시예는 제한하려고 의도된 것이 아니며, 진정한 범위와 사상은 이하 청구범위에서 나타난다.

Claims

오디오 인터페이스 시스템에서의 방법으로서,
제1 내레이터(narrator)의 제1 음성 데이터 및 제2 내레이터의 제2 음성 데이터를 수신하는 단계;
상기 제2 음성 데이터를 음성 변환 함수에 의해 변환(transform)하는 단계;
제1 텍스트 데이터 및 제2 텍스트 데이터를 수신하는 단계;
상기 제1 텍스트 데이터의 적어도 일부를 상기 제1 음성 데이터에 적어도 부분적으로 기초하여, 제1 합성된 음성 데이터로 전환(convert)하는 단계;
상기 제2 텍스트 데이터의 적어도 일부를 상기 변환된 제2 음성 데이터에 적어도 부분적으로 기초하여, 제2 합성된 음성 데이터로 전환하는 단계; 및
상기 제1 합성된 음성 데이터 및 상기 제2 합성된 음성 데이터를 상기 음성 인터페이스 시스템을 통하여 제공하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 음성 변환 함수는 상기 제1 음성 데이터 및 상기 변환된 제2 음성 데이터 간의 특징 차를 최대화하는, 방법.
제1항에 있어서,
상기 제1 음성 데이터의 적어도 하나의 음향 모델 및 상기 변환된 제2 음성 데이터의 적어도 하나의 음향 모델을 추출하는 단계
를 더 포함하고,
상기 제1 텍스트 데이터의 적어도 일부를 전환하는 단계는 상기 제1 음성 데이터의 적어도 하나의 음향 모델에 기초하고,
상기 제2 텍스트 데이터의 적어도 일부를 전환하는 단계는 상기 변환된 제2 음성 데이터의 적어도 하나의 음향 모델에 기초하는, 방법.
제1항에 있어서,
상기 제1 합성된 음성 데이터 또는 상기 제2 합성된 음성 데이터 중 하나의 선택의 지시를 수신하는 단계; 및
상기 선택된 음성 데이터에 대응하는 추가적인 데이터를 상기 음성 인터페이스 시스템의 사용자에게 제공하는 단계
를 더 포함하는 방법.
제4항에 있어서,
상기 추가적인 데이터는 합성된 음성 데이터인, 방법.
제1항에 있어서,
센서에 의해, 상기 음성 인터페이스 시스템의 사용자의 제스처(gesture)를 검출하는 단계; 및
상기 음성 인터페이스 시스템의 상기 사용자의 상기 제스처가 제1 합성된 음성 데이터 또는 제2 합성된 음성 데이터의 선택에 해당하는지를 결정하는 단계
를 더 포함하는 방법.
제6항에 있어서,
상기 센서는 자이로 센서(gyro sensor)를 포함하는, 방법.
제1항에 있어서,
상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터 중 적어도 하나는 외부 네트워크로부터 수신되는, 방법.
제8항에 있어서,
상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터 중 적어도 하나는 이메일 메시지, 웹 페이지 및 SNS(social networking service) 메시지로 구성되는 그룹으로부터 선택되는 것인, 방법.
오디오 인터페이스 시스템에서의 방법으로서,
제1 텍스트 데이터 및 제2 텍스트 데이터를 수신하는 단계;
상기 제1 텍스트 데이터의 적어도 일부를 제1 음성 데이터에 적어도 부분적으로 기초하여, 제1 합성된 음성 데이터로 전환하는 단계;
상기 제2 텍스트 데이터의 적어도 일부를 음성 변환 함수에 의해 제2 음성 데이터로부터 변환되는 변환된 제2 음성 데이터에 적어도 부분적으로 기초하여, 제2 합성된 음성 데이터로 전환하는 단계; 및
상기 제1 합성된 음성 데이터 및 상기 제2 합성된 음성 데이터를 상기 음성 인터페이스를 통하여 제공하는 단계
를 포함하는 방법.
제10항에 있어서,
상기 음성 변환 함수는 상기 제1 음성 데이터 및 상기 변환된 제2 음성 데이터 간의 특징 차를 최대화하는, 방법.
제10항에 있어서,
상기 제1 텍스트 데이터의 적어도 일부를 전환하는 단계는 상기 제1 음성 데이터의 적어도 하나의 음향 모델에 기초하고,
상기 제2 텍스트 데이터의 적어도 일부를 전환하는 단계는 상기 변환된 제2 음성 데이터의 적어도 하나의 음향 모델에 기초하는, 방법.
제10항에 있어서,
상기 제1 합성된 음성 데이터 또는 상기 제2 합성된 음성 데이터 중 하나의 선택의 지시를 수신하는 단계; 및
상기 선택된 음성 데이터에 대응하는 추가적인 데이터를 상기 음성 인터페이스 시스템의 사용자에게 제공하는 단계
를 더 포함하는 방법.
제13항에 있어서,
상기 추가적인 데이터는 합성된 음성 데이터인, 방법.
제10항에 있어서,
센서에 의해, 상기 음성 인터페이스 시스템의 사용자의 제스처를 검출하는 단계; 및
상기 음성 인터페이스 시스템의 상기 사용자의 상기 제스처가 상기 제1 합성된 음성 데이터 또는 제2 합성된 음성 데이터의 선택에 해당하는지를 결정하는 단계
를 더 포함하는 방법.
제10항에 있어서,
상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터 중 적어도 하나는 이메일 메시지, 웹 페이지 및 SNS 메시지로 구성되는 그룹으로부터 선택되는 것인, 방법.
제1 음성 데이터의 적어도 하나의 음향 모델 및 음성 변환 함수에 의해 제2 음성 데이터로부터 변환되는 변환된 제2 음성 데이터의 적어도 하나의 음향 모델을 저장하도록 구성된 데이터베이스;
제1 텍스트 데이터의 적어도 일부를 제1 음성 데이터의 적어도 하나의 음향 모델에 적어도 부분적으로 기초하여 제1 합성된 음성 데이터로 전환하도록 구성되고, 제2 텍스트 데이터의 적어도 일부를 상기 변환된 제2 음성 데이터의 적어도 하나의 음향 모델에 적어도 부분적으로 기초하여 제2 합성된 음성 데이터로 전환하도록 구성된 전환 유닛; 및
상기 제1 합성된 음성 데이터 및 상기 제2 합성된 음성 데이터를 재생하도록 구성된 재생 유닛
을 포함하는 오디오 인터페이스 시스템.
제17항에 있어서,
상기 음성 변환 함수는 상기 제1 음성 데이터 및 상기 변환된 제2 음성 데이터 간의 특징 차를 최대화하는, 음성 인터페이스 시스템.
제17항에 있어서,
상기 제1 합성된 음성 데이터 또는 제2 합성된 음성 데이터 중 하나의 선택의 지시를 수신하도록 구성된 수신 유닛
을 더 포함하는, 음성 인터페이스 시스템.
제17항에 있어서,
상기 제1 텍스트 데이터 및 상기 제2 텍스트 데이터 중 적어도 하나는 이메일 메시지, 웹 페이지 및 SNS 메시지로 구성되는 그룹으로부터 선택되는 것인, 음성 인터페이스 시스템.
컴퓨터 실행가능 명령어가 저장된 컴퓨터 판독가능 저장 매체로서, 상기 컴퓨터 실행가능 명령어는, 실행에 응답하여, 음성 인터페이스 시스템이,
제1 내레이터의 제1 음성 데이터 및 제2 내레이터의 제2 음성 데이터를 수신하고;
상기 제2 음성 데이터를 음성 변환 함수에 의해 변환하고;
제1 텍스트 데이터 및 제2 텍스트 데이터를 수신하고;
상기 제1 텍스트 데이터의 적어도 일부를 상기 제1 음성 데이터에 적어도 부분적으로 기초하여, 제1 합성된 음성 데이터로 전환하고;
상기 제2 텍스트 데이터의 적어도 일부를 상기 변환된 제2 음성 데이터에 적어도 부분적으로 기초하여, 제2 합성된 음성 데이터로 전환하며; 그리고
상기 제1 합성된 음성 데이터 및 상기 제2 합성된 음성 데이터를 상기 음성 인터페이스 시스템을 통해 제공하도록 하는, 컴퓨터 판독가능 저장 매체.
제21항에 있어서,
상기 음성 변환 함수는 상기 제1 음성 데이터 및 상기 변환된 제2 음성 데이터 간의 특징 차를 최대화하는, 컴퓨터 판독가능 저장 매체.
제21항에 있어서,
상기 컴퓨터 실행가능 명령어는, 실행에 응답하여, 상기 음성 인터페이스 시스템이 또한,
상기 제1 합성된 음성 데이터 또는 제2 합성된 음성 데이터 중 하나의 선택의 지시를 수신하고; 그리고
상기 선택된 음성 데이터에 대응하는 추가적인 데이터를 상기 음성 인터페이스 시스템의 사용자에게 제공하도록 하는 컴퓨터 판독가능 저장 매체.
컴퓨터 실행가능 명령어가 저장된 컴퓨터 판독가능 저장 매체로서, 상기 컴퓨터 실행가능 명령어는, 실행에 응답하여, 음성 인터페이스 시스템이,
제1 텍스트 데이터 및 제2 텍스트 데이터를 수신하는 단계;
상기 제1 텍스트 데이터의 적어도 일부를 제1 음성 데이터에 적어도 부분적으로 기초하여, 제1 합성된 음성 데이터로 전환하는 단계;
상기 제2 텍스트 데이터의 적어도 일부를 음성 변환 함수에 의해 제2 음성 데이터로부터 변환되는 변환된 제2 음성 데이터에 적어도 부분적으로 기초하여, 제2 합성된 음성 데이터로 전환하는 단계; 및
상기 제1 합성된 음성 데이터 및 상기 제2 합성된 음성 데이터를 상기 음성 인터페이스를 통하여 제공하는 단계
를 포함하는 동작을 수행하도록 하는, 컴퓨터 판독가능 저장 매체.
제24항에 있어서,
상기 음성 변환 함수는 제1 음성 데이터 및 상기 변환된 제2 음성 데이터 간의 특징 차를 최대화하는, 컴퓨터 판독가능 저장 매체.
제24항에 있어서,
상기 동작은
상기 제1 합성된 음성 데이터 및 상기 제2 합성된 음성 데이터 중 하나를 선택하는 사용자 입력을 수신하는 단계; 및
상기 선택된 음성 데이터에 대응하는 추가적인 데이터를 상기 음성 인터페이스 시스템의 사용자에게 제공하는 단계
를 더 포함하는, 컴퓨터 판독가능 저장 매체.