KR20050098839A

KR20050098839A - 네트워크 환경에서 음성 처리를 위한 중간 처리기

Info

Publication number: KR20050098839A
Application number: KR1020057011309A
Authority: KR
Inventors: 피터 베프렉; 테드 에이치. 애플바움; 스티브 피어슨; 로랜드 쿤
Original assignee: 마쓰시다 일렉트릭 인더스트리얼 컴패니 리미티드
Priority date: 2003-02-12
Filing date: 2004-02-06
Publication date: 2005-10-12
Also published as: WO2004072950A3; US20040158457A1; CN100351899C; US7533023B2; CN1748249A; EP1593117A2; EP1593117A4; WO2004072950A2

Abstract

네트워크 환경에서 음성 어플리케이션의 음성 파라미터들을 맞춤화하기 위한 음성 처리 시스템을 제공한다. 상기 음성 처리 시스템은 제1 연산 디바이스에 존재하고 소정의 사용자에 대해 맞춤형 음성 파라미터들을 획득하고 상기 맞춤형 음성 파라미터들을 네트워크 환경으로 전달하는 음성 처리 어플리케이션 및 네트워크 환경의 제2 연산 디바이스에 존재하고 상기 맞춤형 음성 파라미터들을 수신하고 제3 연산 디바이스에서의 사용을 위해서 상기 맞춤형 음성 파라미터들을 변환하는 중간 음성 처리기를 포함한다.

Description

네트워크 환경에서 음성 처리를 위한 중간 처리기 {Intermediary For Speech Processing In Network Environments}

본 발명은 일반적으로 음성 처리 시스템에 관련된, 보다 상세하게는, 네트웍 환경의 서로 다른 음성 어플리케이션에서의 맞춤형(customizing) 음성 파라미터를 위한 중간 음성 프로세서(intermediary speech processor)에 관한 것이다.

음성 처리와 개인용 컴퓨터, 이동 전화 그리고 PDA 등과 같은 소비자 장치의 결합이 증가하고 있다. 음성 처리는 일반적으로 다음의 두 가지 방법 중의 한 가지 방법으로 구현된다. 음성 처리가 소비자 장치에서 실행되는 경우, 또는 소비자 장치와 서버간에 분산되어 있는 경우이다. 이러한 두 가지 방법의 문제점은 음성 처리의 계산적인 측면만을 다룬다는 것이다. 최근에, 사용자 모델들과 다른 사용자 특정 프래퍼런스(user specific preference)의 공유를 가능하게 하는 중간매체(intermediary)가 부족하다. 따라서, 사용자에 의해서 트레이닝 세션(session)과 다른 초기화 과정이 사용자의 서로 다른 장치들에서 반복적으로 실행되는 것이 필요하다. 다시 말해서, 최근의 음성 처리 아키텍처들은 이종의 사용자 장치에 존재하는 음성 어플리케이션간의 사용자 맞춤형(customization) 데이터의 공유가 지원하지 않는다.

도 1은 본 발명에 따른 음성 어플리케이션의 음성 파라미터를 맞춤화 하기 위한 음성 처리 시스템을 나타낸다.

도 2는 본 발명의 맞춤(customization) 기술을 어떻게 자동 음성 인식에 적용할 수 있는지를 나타낸다.

도 3은 본 발명의 맞춤 기술을 어떻게 화자 인식에 적용할 수 있는지를 나타낸다.

도 4는 본 발명의 맞춤 기술을 어떻게 음성 합성에 적용할 수 있는지를 나타낸다.

도 5는 본 발명의 음성 처리 시스템에서 진보된(enhanced) 음성 처리 서비스를 제공하기 위한 방법을 설명하는 흐름도이다.

본 발명의 목적은, 네트웍 환경의 음성 어플리케이션에 대한 음성 변수들을 맞춤화(customizing) 하는 음성 처리 시스템을 소개하는 것이다.

상기 음성 처리 시스템은 소정의 사용자를 위한 맞춤형 음성 파라미터를 획득하고 상기 맞춤형 음성 파라미터를 네트웍을 통해 전달하며, 제1 연산 디바이스에 존재하는 음성 처리 어플리케이션 및 상기 맞춤형 음성 파라미터를 수신하고 제3 연산 디바이스에서의 사용을 위해 상기 맞춤형 음성 파라미터를 변환하며, 상기 네트웍 환경의 제2 연산 디바이스에 존재하는 중간 음성 처리기를 포함한다.

본 발명과 본 발명의 목적 및 본 발명의 장점의 완벽한 이해를 위해서, 발명의 상세한 설명 및 첨부된 도면을 참조할 수 있다.

도1은 네트웍 환경의 음성 어플리케이션의 맞춤형 음성 파라미터를 위한 음성 처리 시스템(10)의 예를 나타낸다. 일반적으로 상기 음성 처리 시스템(10)은 네트웍(14)에 의해 연결된 적어도 두개의 사용자 디바이스(12)를 포함한다. 설명을 위한 목적으로, 상기 사용자 디바이스들은(12) 개인용 컴퓨터 또는 이동 전화기로 도시된다. 그러나, 팩스 또는 PDA와 같은 다른 형태의 사용자 디바이스들도 본 발명의 권리 범위에 포함된다는 것을 쉽게 알 수 있다.

음성 처리 어플리케이션(22)은 각각의 상기 사용자 디바이스(12)에 존재한다. 음성 처리 서비스들은 자동 음성 인식(automatic speech recognition), 음성 합성(speech synthesis), 화자 인식(speaker recognition), 음성 통화 관리(speech dialog management), 음성 검출(speech detect), 분광 등화(spectral equalization), 및 분광 정규화(spectral normalization)를 포함 할 수 있다.

동작에서, 상기 음성 처리 어플리케이션(22)은 최종 사용자(end user)로부터 다양한 사용자 음성 파라미터를 얻을 수 있다. 예를 들면, 전형적인 맞춤형 음성 파라미터들은 구술(dictation) 어플리케이션의 자동 음성 인식기(recognizer)에 의해서 사용되는 사용자 적응 음향 모델(user adapted acoustic model)일 것이다. 그러나, 다른 형태의 맞춤형 음성 파라미터들도 본 발명의 넓은 범위에 포함된다는 것을 쉽게 알 수 있다. 게다가, 맞춤형 음성 파라미터들은 음성 처리 서비스 형태에 기초하여 변할 수 있다.

한번 획득되면, 일반적으로 맞춤형 음성 파라미터들을 서로 다른 형태의 연산 디바이스에 존재하는 음성 어플리케이션들 사이에서 공유하기에 충분하지 않다. 따라서, 상기 음성 처리 어플리케이션 (22)은 서버(16)에 존재하는 중간 음성 처리기(intermediary speech processor, 20)와 네트웍 환경의 상기 맞춤형 음성 파라미터들의 통신을 위해 동작할 수 있다. 상기 맞춤형 음성 파라미터들은 상기 네트웍 환경에 상응하는 데이터 저장부(24)에 저장된다. 상기 데이터 저장부(24)는 상기 중간 음성 처리기 같은 연산 디바이스 또는 상기 네트웍 환경에 분산된 다중 데이터 저장부에 존재할 수 있다. 마찬가지로, 중간 음성 처리기(20)의 처리 능력들도 네트웍 환경의 다중 연산 디바이스들에 분산될 수 있다. 어떤 경우에도, 상기 데이터 저장부(24)는 상기 중간 음성 처리기(20)에 접속 가능하다.

본 발명에 따라, 상기 중간 음성 처리기들은 상기 맞춤형 음성 파라미터들을 수신하고, 서로 다른 연산 장치에서의 사용을 위해 상기 맞춤형 음성 파라미터들을 변환한다. 서로 다른 연산 장치들은 서로 다른 동작 특성을 가질 수 있기 때문에, 상기 중간 음성 처리기(20)는 서로 다른 연산 장치들의 동작 파라미터를 저장하고 있는 디바이스 특정 데이터 저장부(device specific data store, 26)에 억세스 한다. 아래에서 더욱 자세히 설명하겠지만, 음성 파라미터들을 위한 변환 과정(transformation process)은 타깃(target) 연산 장치의 동작 파라미터에 부분적으로 기초한다.

변환된 음성 파라미터들은 상기 네트워크 환경에 상응하는 데이터 저장부에 저장된다. 상기 데이터 저장부는 중간 음성 처리기 처럼 동일한 연산장치에 존재하거나 네트워크 환경의 다중 데이터 저장부에 분산되어 존재할 수도 있다. 어떤 경우라도, 변환된 음성 파라미터들은 타깃 연산 장치들에 억세스 한다. 끝으로, 상기 타깃 연산 장치는 상기 변환된 맞춤형 음성 파라미터들을 사용하여 음성 처리를 수행할 수 있다.

구술 시스템(dictation system)을 위한 자동 음성 인식기(automatic speech recognizer)와 관련된 언어 모델들과 음향 모델들은 일반적으로 상기 시스템 사용자에게 적응된다. 설명을 위해, 상기 본 발명의 맞춤(customization) 기술은 아래에서 자세히 설명되고 도 2에 도시된 바와 같이 음성 인식기의 언어 모델 및/또는 음향 모델에 적용될 수 있다.

일반적으로 언어모델들은 가능한 단어를 구성하는 것, 어떤 단어들이 동시에 발생하기 쉬운지, 어떤 순서인지에 대한 시스템의 지식과 관련된다. 하나의 실시 예로, 음성 인식기(30)를 위한 언어 모델(34)은 엔-그램(n-gram) 언어 모델(language model)의 편집물로 구체화할 수 있다. 예를 들어, 유니그램(unigram) 모델은 하나의 단어와 화자(speaker)가 그 단어를 사용할 확률로 정의된다. 반면에 바이그램(bigram) 모델은 한 단어와 상기 단어의 바로 앞 단어 그리고 이 두 단어가 순차적으로 사용될 확률로 정의된다. 구술 시스템(dictation system)에서, 상기 언어 모델을 포함하는 엔-그램(n-gram) 언어 모델은 종래 기술에서 잘 알려진 특정 시스템 사용자에게 적당할 수 있다.

대량-어휘 음성 인식기(large-vocabulary speech recognizer)에 대해서, 상기 언어 모델은 일반적으로 유니그램(unigram) 모델, 바이그램(bigram) 모델 그리고 트라이그램(trigram) 모델을 포함한다. 그러한 음성 인식기들은 개인용 컴퓨터 또는 상기 음성 인식기를 지원하는데 필요한 연산 능력 그리고/또는 메모리 공간을 갖고 있는 다른 유사한 연산 장치들에서 일반적으로 실행된다. 그러나, 상기 시스템 사용자가 그들의 맞춤형 언어 모델을 개인 컴퓨터에 비해 적은 연산 능력과 메모리 공간을 갖고 있는 핸드폰과 같은 다른 연산 장치에 올리(port)기 원할 수 있다. 따라서, 대량-어휘(large-vocabulary) 언어 모델(34)은 상기 중간 음성 처리기(32)에 의해서 억세스가 가능한 데이터 저장부(38)에 존재하는 상기 타깃 디바이스의 동작 특성에 따라서 상기 중간 음성 처리기(32)에 의해서 변환될 수 있다.

예를 들어, 상기 중간 음성 처리기(32)는 대량-어휘 언어 모델(large-vocabulary language model)의 크기를 이동 전화기의 메모리 공간에 기초하여 줄일 수 있다. 사용가능한 메모리 공간에 따라, 상기 중간 음성 처리기는 상기 트라이그램(trigram) 모델의 전체 또는 연관된 확률이 기준치(predetermined threshold) 보다 낮은 트라이그램(trigram) 모델을 제거할 수 있고, 따라서 적은 크기를 갖는 포터블(portable) 언어 모델을 형성할 수 있다. 상기 언어 모델의 크기를 더욱 줄이기 위해서, 상기 바이그램(bigram) 모델의 전부 및 트라이그램(trigram) 모델을 상기 언어 모델에서 삭제할 수 있다. 상기 변환 알고리즘은 상기 타깃 디바이스의 연산 능력, 사용가능한 연산 능력, 특별한 음성 처리 어플리케이션 그리고 이들의 몇몇 조합과 같은 다른 동작 특성에 기초하여 할 수 있다는 것을 쉽게 알 수 있다. 다른 형태의 변환 알고리즘들도 본 발명의 넓은 범위에 포함됨도 이해할 수 있다. 어떤 경우에도, 상기 변환된 음성 파라미터들은 후속 처리를 위해서 상기 중간 음성 처리기(32)에 의해서 데이터 저장부(39)에 저장된다.

마찬가지로, 구술 시스템(dictation system)의 자동 음성 인식기(automatic speech recognizer)를 위한 음향(acoustic) 모델들도 서로 다른 연산 장치에서의 사용을 위해서 변환할 수 있다. 일예로, Hidden Markov 모델을 상기 음성 인식기(speech recognizer)를 위한 상기 음향(acoustic) 모델에 사용할 수 있다. Hidden Markov 모델은 음소(音素)와 같은 하위-단어 단위들(sub-word unit)을 모형화 하는데 일반적으로 사용된다. 이러한 경우에, 상기 음성 인식기는 각각의 음소(音素)에 하나의 음향 모델(acoustic model)을 사용할 수 있다. 그러나, 인식의 정확성을 더욱 향상시키기 위해, 대량-어휘 음성 인식기들(large-vocabulary speech recognizers)은 문맥 의존적인 음향 모델을 일반적으로 사용한다. 예를 들어, 그러한 음성 인식기들은 이음 모델(diphone model), 삼음 모델(triphone model), 사음 모델(quadriphone 모델), 그리고 이웃하는 단음들을 고려하는 다른 음향 모델을 포함 할 수 있다. 위에서 언급한 바와 같이, 상기 중간 음성 처리기는 이동전화의 사용 가능한 메모리 공간에 기초하여 음향 모델의 수를 줄일 수 있다. 단어 수준(word-level) 또는 몇몇 다른 음성 하부 요소(speech sub-component)에서 정의된 음향 모델들은 본 발명의 범위에 포함된다. 게다가, 최대 가능 선형 회귀(maximum likelihood linear regression)와 최대 후부 적응(maximum a posteriori adaption)과 같은 공지된 어댑티브 기술들을 상기 음성 인식기에 의해서 사용되는 상기 음향 모델을 수정하는데 사용할 수 있다.

어댑티브 기술들은 음성 인식을 위한 음향 모델을 현재 사용자(current user)에게 잘 동작하도록 하는데 종종 사용된다. 예를 들어, 사용자가 구술을 위한 대량-어휘 음성 인식 시스템을 최초로 사용하기 시작할 때, 상기 음향 모델이 상기 사용자의 음성 특성을 반영하지 못하는 상기 시스템을 프리로드(pre-load) 하기 때문에, 상기 시스템은 단어 인식 에러를 종종 발생할 수 있다. 일단 상기 사용자가 일정시간 상기 시스템에 이야기를 하면, 어댑티브 기술은 상기 사용자의 저장된 음성에서 얻어진 정보를 상기 오리지널 음향 모델로 변환하는데 이용할 수 있고, 따라서 상기 현 사용자의 음성 특성을 보다 정확하게 반영하여 결과적으로 에러율을 낮을 수 있다. 종래 기술에서, 상기 사용자는 새로운 음성 장치를 사용하기 시작할 때마다 음성을 더욱 정확하게 만들기 위해서 상기 음성 모델을 유지해야만 한다. 이것은 시간 소모적인 방법이다. 따라서, 본 발명은 음향 모델이 학습되어 지고 따라서 소정의 사용자의 음성을 새로운 장치에 옮길 수 있도록 정확하게 모델을 만드는 것이 가능하다. 상기 사용자가 새로운 장치에 말을 하기 시작할 때, 새로운 장치는 그 사용자의 음성에 대한 단어 인식을 수행하도록 맞춤화된 모델들을 벌써 포함하고 있다.

마찬가지로, 어댑티브 기술들은 소정의 음향 환경의 특성을 습득할 수 있고,따라서 그러한 환경에서 음성 인식 시스템이 잘 동작하도록 한다. 예를 들어, 자동차 종류별, 방의 종류별로 각각 음향 특성을 갖고 있고, 그러한 환경에서 학습된 음성 인식 시스템은 그 환경에서 학습되지 않은 것 보다 잘 동작한다. 상기 본 발명은 소정의 환경의 특성에 대한 지식을 하나의 디바이스에서 다른 디바이스로 전달할 수도 있다. 따라서, 예를 들면, 자신의 PDA를 자신의 스포츠카에서 잘 동작하도록 학습시킨 사용자는 그 지식을 그 자동차에서 사용되는 새로 구입한 음성-기동(起動) (voice-activate)의 이동 전화로 전달할 수 있다.

음성 인식 시스템처럼, 화자(speaker) 인식(즉, 화자 검증 그리고 화자 인증)을 위한 시스템들은 음성의 음향 모델을 포함하고 있다. 도 3을 참고하면, 대표적인 화자 인식 시스템은 음향 모델을 위한 화자 인식기(speaker recognizer, 40) 및 데이터 저장부(44)를 포함한다. 그러한 시스템의 등록된 각각의 사용자는 GMM(Gaussian Mixture Model), HMM(Hidden Markov Model)또는 다른 형태의 음향 모델로 구체화 할 수 있는 사용자 목소리가 저장된 모델과 연관되어 있다. 상기 시스템에 새로운 음성 데이터가 주어지면, 상기시스템은 새로운 음성이 등록된 사용자중의 한 명의 것인지, 그렇다면 누구의 것인지를 결정하기 위해서 새로운 음성을 상기 저장된 모델과 비교한다.

등록을 위해서, 각 사용자는 그 또는 그녀의 목소리를 저장해야 한다. 저장된 데이터는 상기 모델을 저장된 화자에 대해서 학습시키는데 사용된다. 일반적으로, 특정 사용자에 대한 많은 음성을 저장할수록, 그 사용자에 대한 상기 모델은 더욱 정확해 진다. 일반적으로, 사용자는 자신의 모델을 각각의 디바이스에 독립적으로 학습시켜야 한다. 본 발명은 다른 장치에서도 사용할 수 있도록 화자 인식을 위한 화자 모델을 하나의 디바이스에 학습시킬 수 있다.

특별히, 상기 중간 음성 처리기(42)는 상기 화자 모델을 다른 디바이스에서 사용할 수 있게 변환 할 수 있다. 그렇게 하기 위해서, 상기 중간 음성 처리기(42)는 데이터 저장부(46)에 존재하는 디바이스 데이터에 억세스 한다. 상기 중간 음성 처리기(42)는 상기 변환된 화자 모델을 후속 처리를 위한 또 다른 데이터 저장부(48)에 저장시킨다. 따라서, 하나의 디바이스에 대해서 잘 학습된 화자 모델을 갖고 있는 사용자는 상기 목소리 중간 처리기가 그 사용자의 목소리에 대한 저장된 모델을 갖고 있기 때문에 두 번째 디바이스에 대해서 목소리 모델을 학습시킬 필요 없이, 두 번째 디바이스에서도 검증 또는 인증될 수 있다. 상기 목소리 중간 처리기는 상기 두 개의 디바이스 각각의 전형적인 왜곡에 대한 지식을 첫 번째 디바이스에서 학습된 모델을 변환시키고 두 번째 디바이스로 전달하게 하는 변환을 계산하는데 사용할 수 있다.

상기 본 발명의 맞춤(Customization) 기술은 음성 합성 처리에도 적용 가능하다. 예를 들어, 시스템 사용자는 개인용 컴퓨터에 존재하고 많은 수의 기본 목소리를 갖고 있는 연관-기반(concatenative-based) 합성기를 위해 선호하는 합성된 목소리를 선택할 수 있다. 게다가, 상기 사용자는 음조 윤곽선(pitch contour)을 가변 시키고 단락(pause) 읽기를 하는 방법으로 상기 합성된 목소리를 더욱 특화시킬 수 있다. 또 다른 예로, 상기 사용자는 자신의 목소리에 기초하여 선호하는 합성 목소리를 만들 수 있다. 두 예에서, 상기 연관-기반(concatenative-based) 합성기는 이음(diphones), 삼음(triphones) 그리고 다른 형태의 음단위(sound unit)를 포함하는 대형 음성 세그먼트 데이터베이스에 의존한다. 더욱이, 상기 데이터 베이스는 다른 환경(in different contexts)하에서 다른 음조(pitch) 및/또는 다른 음량(duration)을 가지는 동일한 음성 세그먼트를 포함하고 있을 수 있다.

상기 데이터베이스를 한정된 자원(resource)을 갖고 있는 타깃 디바이스에 올리기 위해서, 상기 중간 음성 처리기는 상기 데이터베이스에 존재하는 음성 세그먼트의 수를 줄일 필요가 있다. 위에서 설명한 것처럼, 상기 중간 음성 처리기는 상기 타깃 디바이스의 사용 가능한 메모리 공간에 기초하여 상기 데이터베이스의 크기를 줄일 수 있다. 그렇게 하기 위해서, 상기 중간 음성 처리기는 비슷한 음성표기 문장(phonetic context)에서 많이 발생하는 음성 세그먼트들을 검출하는 변환 알고리즘(transformation algorithm)을 사용할 수 있다. 선택적으로, 상기 중간 음성 처리기는 삼음(triphone), 그리고/또는 사음(quadriphones)을 제거할 수 있지만, 상기 데이터베이스에 존재하는 이음(diphones)은 유지한다. 하지만 다른 접근법에서는, 상기 중간 음성 처리기는 비슷하게 발음되는 그러한 단위들을 무너뜨린다. 예를 들어, 더욱 포괄적인 데이터 베이스는 /t/소리의 다른 버전을 갖는 음성 세그먼트를 포함할 수 있다. 이 경우에, 음향상으로는 유사하지만 다른 음성 단위(speech segment)들은 하나의 대표 음성 세그먼트로 그룹 지울 수 있다. 당업자들에게 자명한 것처럼, 상기 변환 알고리즘은 상기 타깃 디바이스의 공간적인 필요조건을 만족시키기 위해 변환할 수 있다. 한번 상기 디바이스의 사이즈가 얻어 지면, 상기 변환된 데이터베이스는 상기 타깃 디바이스에 억세스 할 수 있고 전송될 수 있다.

종래 기술에서 잘 알려진 것처럼, 상기 음성 합성기는 운율학(prosodic) 데이터베이스에도 의지 할 수 있다. 상기 운율학(prosodic) 데이터베이스는 상기 음성 합성기가 합성을 향상시키기 위해 사용되는 다양한 운율학적인 특성(attribute)을 포함한다. 운율학적 특성은 진폭(amplitude), 음량(duration) 그리고 억양(intonation)을 포함한다. 상기 운율학적 특성은 서로 다른 문맥에 나타나고 음성의 합성 시에 마주치게 되는 문맥 또는 특성에 기초하여 결과들의 맞춤(customization)을 가능하게 하는 서로 다른 음성 세그먼트를에 대해 개별적으로 저장 될 수 있다. 마찬가지로, 상기 운율학적 특성들은 정규화된(normalized) 형태로 저장할 수 있고, 합성 시 사용 가능한 데이터에 기초하여 적당한 최종 형태로 변환할 수 있다. 상기 운율학적 데이터베이스는 운율학적 탬플릿(template) 리스트, 의사결정 트리(decision tree), 제품의 합(sum-of-product) 모델 또는 신경 네트워크(neural network)와 같은 다양한 방법으로 구성할 수 있다. 따라서, 제1 디바이스에 존재하는 운율학적 특성들은 다른 장치에서의 사용을 위해 상기 중간 음성 처리기에 의해서 같은 방법으로 변환될 수 있다.

선택적으로, 상기 타깃 디바이스는 파라메트릭 포맷 기반(parametric format-based) 합성기를 사용할 수 있다. 이 경우에, 상기 중간 음성 처리기는 원하는 맞춤형(customized) 목소리를 위한 대표적인 형태의 파라미터를 유도해야 한다. 하나의 예시적인 접근법에서, PC에 존재하는 음성 합성기(50)는 도 3에 나타난 상기 중간 음성 처리기(54)에 맞춤형(customized) 목소리의 표본 발음(sample utterance, 52)을 제공한다. 상기 중간 음성 처리기(intermediary speech processor, 54)는 표본 발음 (sample utterance)에 대한 음성 분석을 차례로 수행할 것이다. 특별히, 상기 증간 음성 처리기(intermediary speech processor,54) 파형(waveform)에 대한 포맷 분석을 수행하고, 그것에 의하여 상기 맞춤형(customized) 목소리를 위한 포맷 주파수와 대역폭을 결정한다. 상기 인증된 포맷 파라미터들은 타깃 디바이스의 포맷 기반의 합성기의 사용을 위해 중간 음성 처리기에 의해서 상기 타깃 디바이스로 보내진다. 마찬가지로, 상기 중간 음성 처리기(intermediary speech processor)는 평균음성비(average speech rate), 평균피치(average pitch), 피치 범위(pitch range) 등과 같은 상기 맞춤형 목소리를 위한 다른 파라미터들을 결정할 수 있다. 또한 이러한 부가적인 음성 파라미터들은 타깃 디바이스의 포맷 기반의 합성기에 의한 사용을 위해 상기 타깃 디바이스에 공급된다.

상기 중간 음성 처리기는 복수의 다른 사용자들의 음성 처리 데이터에 기초한 음성 파라미터들을 명확히 하기 위해 또한 형성될 수 있다. 제1 연산 디바이스에 존재하는 제1 음성 처리 어플리케이션은 제1 시스템 사용자를 위해 맞춤형(customized) 음성 파라미터를 획득한다. 반면에 제2 연산 디바이스에 존재하는 2차 음성 처리 어플리케이션은 2차 시스템 사용자를 위해 맞춤형(customized) 음성 파라미터들을 획득한다.

획득된 음성 파라미터들은 네트워크 환경의 제3 연산 장치에 존재할 수 있는 상기 중간 음성 처리기에 접근하기 쉽다. 상기 중간 음성 처리기는 음성 처리 시스템상의 사용을 위한 진보된 음성 파라미터(enhanced speech parameter)를 구체화할 수 있다. 상기 진보된 음성 파라미터는 상기 네트워크 환경과 연결된 데이터 저장부에 저장되고, 타깃 연상장치에 접근 가능하다. 마지막으로, 상기 타깃 연산 장치는 진보된 음성 파라미터를 사용하는 음성 처리 서브를 수행할 수 있다.

음성 합성과 관련된 일예가 아래에서 보다 자세히 설명된다. 하나의 음성 합성기는 일반적으로 발음되는 단어(spelled word)를 합성 시에 순서대로 사용될 발음 표기(phonetic transcription)로 변환하는 문자-소리(letter-to-sound) 모듈(즉, phoneticizer)을 포함한다. 그러나, 많은 단어들은 두 개의 발음을 갖고 있고, 그 결과 문자-소리 모듈은 단어에 대해서 다중의 발음 기호를 만들 수 있다. 예를 들어, "Houston"이란 단어는 /H Y UW S T EN/ 또는 /H AW S T EN/처럼 발음될 수 있다. 제1차 변형(variant)은 일반적이어서, 합성기를 위한 기본 발음으로 선정될 수 있다. 상기 음성 합성기가 사람에 의해서는 쉽게 교정할 수 있지만 음성 합성기에 의한 교정을 위해서는 보다 복잡한 처리를 필요로 하는 약어(abbreviation), 오타(mis-typing) 또는 다른 결함(defect)을 포함하고 있는 입력 문서를 수신할 수 있음을 알 수 있다. 이러한 경우, 상기 음성 합성기는 이러한 결함을 정정하기 위해, 예를 들어, "James St."를 "James Street"로 또는 "St. James"를 "Saint James"로 변환하는 문서 정규화 기능(text normalization function)을 추가적으로 포함하고 있다. 이러한 문서 정규와 기능은 상기 중간 음성 처리기에 의해서 실행될 수 있다.

상기 합성기와 관련된 대화 매니저는 사용자와 상기 합성기의 상호작용을 관찰 할 수 있다. 어떤 단어의 반복적인 합성 그리고/또는 철자법 모드(spelling mode)의 사용과 같은 사용자의 행동은 잘못된 발음 표시의 역할을 할 수 있다. 이러한 경우, 상기 대화 매니저는 다른 표기의 사용을 유발할 수 있다. 만일 상기 새로운 표기(transcription)가 문제점이 적다고 입증되면, 상기 합성기에 의한 사용에 선호되는 표기로 특징지을 수 있다.

동작 중에, 상기 중간 음성 처리기는 상기 네트워크 환경의 다른 디바이스들로부터 선호되는 표기 데이터(preferred transcription data)와 같은 데이터들을 수집할 수 있다. 수집된 데이터들은 현존하는 또는 새로운 시스템 사용자에 의해 다운로드 될 수 있는 선호되는 표기의 기준선(baseline) 데이터베이스로 구체화될 수 있다. 양자택일로, 상기 중간 음성 처리기는 다양한 시스템 사용자의 물리적인 위치도 또한 알 수 있다. 따라서, 상기 중간 음성 처리기는 특별한 지리적인 영역내의 사용자들은 특정한 발음에 대한 반복적인 문제점을 갖고 있음을 추론할 수 있도록 형성될 수 있다. 결과적으로, 상기 중간 음성 처리기는 확인된 영역에 대해서 대안의(alternative) 발음을 사용하도록 상기 디바이스들에게 통보하는 동작을 할 수 있다. 상기 대안의 발음이 상기 타깃 디바이스에서 유용하지 않은 정도까지, 상기 중간 음성 처리기는 상기 대안 발음을 상기 타깃 디바이스로 또한 다운로드 할 수 있다.

네트워크 상의 서로 다른 디바이스로부터 수집할 수 있는 다른 형태의 데이터는 별개의 합성된 목소리에 대한 사용자의 반응이다. 많은 별개의 사용자들로부터의 피드백을 수집하고 분석함으로써, 어떤 목소리들은 매우 대중적이고, 어떤 목소리들은 매우 대중적이지 않은지, 또는 특정 목소리의 대중성은 인구 통계적인 요소(즉, 어떤 목소리는 텍사스에 거주하는 젊은 여성들에게 인기 있을 수 있지만, 다른 지역에서는 인기가 없을 수 있다)에 의존함을 결정할 수 있다. 예를 들어, 이러한 정보는 음성 합성 어플리케이션을 위한 목소리를 선정할 때 어떤 합성된 목소리가 새로운 고객에게 처음으로 들려질 지지를 결정하는데 도움을 줄 수 있다.

다른 시스템 사용자에 대한 데이터 풀링(pooling) 또한 음성 인식을 위한 장점을 야기 시킨다. 예를 들어, 음성 인식 시스템과 통합된 음향 모델(acoustic model)은 다양한 사용자로부터 수집된 많은 수의 음성에 대한 학습을 통해 장점을 가진다. 네트워크 상의 많은 수의 서로 다른 사용자와 디바이스로부터의 음성 데이터의 수집은 새로운 사용자를 위한 상기 음향 모델이 학습되는데 데이터를 공급할 것이다. 선택적으로, 수집된 데이터의 인구 통계적 기원에 관한 지식은 새로운 사용자들의 하위 그룹을 위한 맞춤형 음향 모델을 학습시키는데 사용될 수 있다. 예를 들어, 조지아 출신의 새로운 남성 고객의 음성 인식기를 위한 초기 음향 모델은 주로 조지아에 거주하는 남성들로부터 수집된 음성에 대해서 학습될 것이다.

다른 예에서, 마이크로폰 또는 이동 전화기와 같은 새로운 음성 입력 디바이스(speech input device)가 시장에 소개될 때, 상기 중간 음성 처리기에 의해서 상기 음성 입력 디바이스를 처음 사용하는 사용자들로부터 데이터가 수집된다. 수집된 데이터는 음성 입력 디바이스와 관련된 음향 왜곡(distortion)을 보상하는데 필요한 수학적인 변환을 평가하는데 사용될 수 있다. 그 후에 상기 중간 음성 처리기는 수집된 데이터를 상기 음성 입력 디바이스를 사용하는 다른 사용자들과 공유할 수 있다. 또한 데이터 풀링은 다른 형태의 음성 처리 서비스들에 적용할 수 있음을 쉽게 이해할 수 있다.

화자 인식(speaker recognition)은 어떻게 중간 음성 처리기가 서로 다른 사용자들의 데이터에 대한 풀링(pooling)에 기초하여 진보된(enhanced) 음성 처리 서비스를 제공할 수 있는지에 대한 또 다른 예를 제공한다. 화자 인식에서, 개별 사용자의 목소리에 대한 검증 모델(즉, voiceprint)이 있다. 게다가, 상기 화자 인식 시스템은 모집단의 남은 사람들을 나타내는 의도의 임포스터 모델(imposter model)을 사용할 수도 있다. 이러한 예에서, 상기 중간 음성 처리기는 네트워크 환경의 서로 다른 최종 사용자 그리고/또는 서로 다른 디바이스를 위한 음성 데이터를 수집할 수 있다. 사용자들로부터 수집되지만 상기 화자 인식 시스템에 등록되지 않는 데이터는 임포스터 모델(imposter model)을 업데이트 하는데 사용된다. 서로 다른 임포스터 모델(imposter model)은 상기 최종 사용자의 지리적인 위치를 기반으로 지역 방언 또는 강세를 보상하는데 구체화될 수 있다.

상기 본 발명의 다른 측면에서, 상기 중간 음성 처리기는 음성 처리 시스템에서 진보된 음성 처리 서비스를 제공하기 위한 독특한 사업 모델(business model)을 가능하게 한다. 도 4는 상기 최종 사용자에 대한 과금에 기초하여 진보된 음성 처리 서비스를 제공하기 위한 대표적인 방법론을 설명하고 있다. 첫째, 최종 사용자가 중간 음성 처리기(42)에 나타난 서비스 공급자(service provider)에 의해 제공되는 특정 서비스를 요청함으로써 프로세스가 초기화된다. 일예로, 상기 최종 사용자는 자신의 연산 디바이스중의 하나에서 상기 중간 음성 처리기로 상기 네트웍을 통해 요청(request)을 전달한다. 예를 들어, 상기 최종 사용자들은 그들의 개인용 컴퓨터에 존재하는 맞춤형 음성 파라미터들을 그들의 이동 전화기에 올려달라고(port) 요청 할 수 있다. 상기 요청(request)은 다양한 형식으로 구체화되고 상기 서비스 공급자(service provider)에게 전달될 것이라는 것을 쉽게 알 수 있다.

그 다음, 상기 서비스 공급자는 상기 진보된 음성 처리 서비스를 음향모델(44)에 나타난 봐와 같이 상기 최종 사용자에게 제공한다. 일예로, 상기 맞춤형 음성 파라미터들은 상기 중간 음성 처리기에 의해서 이동전화기에서 사용할 수 있게 변환된다. 또 다른 예로, 상기 진보된(enhanced) 음성 처리 서비스는 상기 최종 사용자의 화자 인식이 될 수 있다. 즉, 상기 최종 사용자가 약간의 단어를 말한 후, 상기 중간 음성 처리기는 상기 말해진 단어의 목소리 특성과 상기 최종 사용자 목소리의 저장된 모델에 기초하여 그 또는 그녀를 인식할 것이고 상기 사용자 확인을 제3자에게 알려줄 것이다. 예를 들어, 누군가가 나에게 은행에 전화를 걸고 나의 재정상태에 대한 기밀 정보를 요구하도록 요구할 수 있다. 이 예에서, 발신자의 목소리 특성과 나의 저장된 목소리를 비교하기 위해서 상기 중간 음성 처리기가사용 될 수 있고, 발신자가 누구인지에 대해 은행에 알려줄 수 있다. 우선의 예에서, 이러한 인증(authentication) 단계는 상기 화자 인식 단계에 부가적으로 다른 확인 정보(즉, PIN number)를 포함한다.

마지막으로, 상기 최종 사용자에게 디바이스 데이터(46)에서 진보된 음성 처리 서비스를 위한 요금이 부과된다. 각각의 서비스는 고정된 요금 또는, 선택적으로, 상기 중간 음성 처리기에 의해서 제공되는 서비스들의 종류 또는 양에 기초하여 정해지는 서비스 요금으로 제공될 수도 있다.

선택적으로, 제3자에게 상기 최종 사용자에게 제공되는 음성 처리 서비스에 대한 요금이 부과될 수 있다. 예를 들어, 은행에서 최종 사용자의 계좌 잔고를 알려주기 위해 음성 합성을 사용하는 서비스를 제공 할 수도 있다. 상기 합성된 음성의 품질을 향상시키기 위해서, 상기 은행은 메시지 원문과 함께 억양 패턴(intonation pattern)을 상기 사용자의 디바이스 존재하는 상기 합성기로 보내기를 원할 수 있다. 상기 억양패턴(intonation pattern)은 상기 합성된 음성의 품질을 향상시키기 위해서 상기 합성기에 의해서 사용된다. 게다가, 상기 최종 사용자가 아닌 상기 은행에 상기 진보된(enhanced) 음성 처리 서비스 제공에 대한 서비스 요금을 부과할 수 있다. 다른 예로, 상기 중간 음성 처리기는 상기 은행을 대신하여 언어 모델을 하나 이상의 최종 사용자에게 제공할 수 있다.

마찬가지로, 상기 중간 음성 처리기는 소정의 고객에게 공급될 목소리를 그 고객의 선호도에 기초하여 맞춤화 할 수도 있다. 따라서 상기 은행에서 공급되는 같은 원문(text)을 어떤 고객에게는 부드러운 여성의 목소리로 들릴 수 있는 반면, 또 다른 고객에게는 사무적이고 약간 쉰 남성의 목소리로 들릴 수 도 있다. 또한 상기 중간 음성 처리기는 상기 은행에 소정의 사용자에 맞춰진 음향 모델을 제공할 수도 있고, 따라서 소정의 사용자가 상기 은행에서 제공하는 음성-인식 서비스(speech-activated service)에 접근할 때, 소정의 사용자에 대한 단어 인식 오류의 횟수가 최소가 된다는 것을 보증한다. 비슷한 방법으로, 음성 중간매체(speech intermediary)는 소정의 사용자를 위해 저장된 상기 목소리 모델을 사용하여 현재 은행과 이야기를 하고 있는(예를 들어 전화를 통해서) 사람이 서비스를 요구하는 그 또는 그녀 일수도 있고 아닐 수도 있다는 것을 상기 은행에 알릴 수 있다. 상기 음성 중간 매체는 제3자(예를 들어 상기 은행)가 쉽게 접근 가능하지 않아 기꺼이 비용을 지불할만한 가치가 있는 특정 디바이스들과 특정 사용자들과 관련된 많은 음성-관련 정보를 갖고 있다. 상기 중간 음성 처리기에 의해서 가능해진 다른 형태의 비즈니스 모델들은 상기 본 발명의 범위에 포함됨을 쉽게 알 수 있다.

본 발명은 현재 바람직한 형태로 설명되었지만, 첨부된 청구항에서 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명을 변경할 수 있음을 이해할 수 있을 것이다.

Claims

제1 연산 디바이스에 존재하고, 소정의 사용자에 대한 맞춤형 음성 파라미터들을 획득하고, 상기 맞춤형 음성 파라미터를 네트워크를 통해 전달하는 제1 음성 처리 어플리케이션; 및

상기 제1 연산 디바이스와 상기 네트워크로 상호 연결된 제2 연산 디바이스에 존재하는 중간 음성 처리기를 포함하되,

상기 중간 음성 처리기는 맞춤형 음성 파라미터들을 수신하고, 상기 제1 연산 디바이스와 서로 다른 동작 특성을 갖는 제3 연산 디바이스에서의 사용을 위해 상기 맞춤형 음성 파라미터를 변환하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터를 맞춤화 하기 위한 음성 처리 시스템.
제1항에 있어서, 상기 제3 연산 디바이스에 존재하며, 상기 변환된 맞춤형 음성 파라미터들을 억세스하고 상기 변환된 맞춤형 음성 파라미터를 사용하여 음성 처리를 수행하는 제2 음성 처리 어플리케이션을 포함하는 것을 특징으로 하는 음성 처리 시스템.
제1항에 있어서, 상기 제3 연산 디바이스에 존재하는 상기 제2 음성 처리 어플리케이션을 포함하고, 상기 중간 음성 처리기는 상기 변환된 맞춤형 음성 파라미터들을 상기 제3 연산 디바이스에 존재하는 상기 제2 음성 어플리케이션으로 전송하는 것을 특징으로 하는 음성 처리 시스템.
제1항에 있어서, 상기 중간 음성 처리기는 상기 변환된 맞춤형 음성 파라미터들을 네트워크 환경에 상응하는 데이터 구조에 저장하는 것을 특징으로 하는 음성 처리 시스템.
제4항에 있어서, 상기 데이터 구조가 상기 제1 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
제4항에 있어서, 상기 데이터 구조가 상기 제2 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
제4항에 있어서, 상기 데이터 구조가 상기 제3 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
제4항에 있어서, 상기 데이터 구조가 네트워크 환경에 분산되어 있는 적어도 두개의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
제1 연산 디바이스에 존재하며, 소정의 화자에 대한 맞춤형 음성 파라미터를 획득하고 상기 맞춤형 음성 파라미터를 네트워크 상으로 전달하는 적어도 하나의 제1 음성 인식기와 제1 화자 인식기; 및

제1 연산 디바이스와 상기 네트워크를 통해서 상호 연결된 제2 연산 디바이스에 존재하는 중간 음성 처리기를 포함하되,

상기 중간 음성 처리기는 맞춤형 음성 파라미터를 수신하고 상기 맞춤형 음성 파라미터를 제1 연산 디바이스와 다른 동작 특성을 갖는 제3 연산 디바이스의 사용을 위해 변환하는 것을 특징으로 하는 네트워크 상의 음성 파라미터들의 맞춤화를 위한 음성 처리 시스템.
제 9항에 있어서, 제3 연산 디바이스에 존재하며, 상기 변환된 맞춤형 음성 파라미터에 억세스하고 상기 변환된 맞춤형 음성 파라미터를 사용하여 음성 처리를 수행하는 적어도 하나의 제2 음성 인식기와 제2 화자 인식기를 포함하는 것을 특징으로 하는 음성 처리 시스템.
제 9항에 있어서, 상기 제3 연산 디바이스에 존재하는 적어도 하나의 제2 음성 인식기와 제2 화자 인식기를 포함하며, 상기 중간 음성 처리기는 상기 변환된 맞춤형 음성 파라미터들을 상기 제3 연산 디바이스에 존재하는 적어도 하나의 상기 제2 음성 인식기와 상기 제2 화자 인식기로 전송하는 것을 특징으로 하는 음성 처리 시스템.
제9항에 있어서, 상기 중간 음성 처리기는 상기 변환된 맞춤형 음성 파라미터들을 네트워크 환경에 상응하는 데이터 구조에 저장하는 것을 특징으로 하는 음성 처리 시스템.
제12항에 있어서, 상기 데이터 구조가 상기 제1 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
제12항에 있어서, 상기 데이터 구조가 상기 제2 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
제12항에 있어서, 상기 데이터 구조가 상기 제3 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
제12항에 있어서, 상기 데이터 구조가 상기 네트워크 환경에 분산되어 있는 적어도 두개의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
제9항에 있어서, 상기 중간 음성 처리기는 상기 제3 연산 장치에 대한 적어도 하나의 디바이스 파라미터들을 디바이스 파라미터 저장부로부터 추출하고, 상기 제3 연산 디바이스를 위한 적어도 하나의 디바이스 파라미터들에 기초하여 상기 맞춤형 음성 파라미터들을 상기 제3 연산 장치에서 사용을 위해 변환하는 것을 특징으로 하는 음성 인식 시스템.
제17항에 있어서, 상기 중간 음성 처리기는 상기 제3 연산 디바이스에 존재하는 사용가능한 메모리 공간에 기초하여 상기 맞춤형 음성 파라미터들을 변환하는 것을 특징으로 하는 음성 처리 시스템.
제17항에 있어서, 상기 중간 음성 처리기가 상기 제3 연산 디바이스의 사용가능한 프로세서 자원에 기초하여 상기 맞춤형 음성 파라미터들을 변환하는 것을 특징으로 하는 음성 처리 시스템.
제17항에 있어서, 상기 중간 음성 처리기가 상기 제3 연산 디바이스에 존재하는 음성 어플리케이션의 형태에 기초하여 상기 맞춤형 음성 파라미터들을 변환하는 것을 특징으로 하는 음성 처리 시스템.
제9항에 있어서, 상기 맞춤형 음성 파라미터들은 음성 인식 모델로 정의되는 것을 특징으로 하는 음성 처리 시스템.
제9항에 있어서, 상기 제3 연산 디바이스의 동작 특성에 기초하여 상기 중간 음성 처리기가 상기 언어 모델에 존재하는 상기 파라미터들을 변환하도록, 상기 맞춤형 음성 파라미터들이 다수의 파라미터를 갖고 있는 언어 모델로 정의되는 것을 특징으로 하는 음성 처리 시스템.
제9항에 있어서, 상기 제3 연산 디바이스의 동작 특성에 기초하여 상기 중간 음성 처리기가 복수의 음향 모델을 변경하기 위해, 상기 맞춤형 음성 파라미터들을 상기 제1 음성 합성기에 의해서 사용되는 복수의 음향 모델들로 정의되는 것을 특징으로 하는 음성 처리 시스템.
제24항에 있어서, 상기 제1 음성 인식기는 소정의 화자를 위한 복수의 음향 모델 적용시키고, 상기 중간 음성 처리기는 상기 제3 연산 디바이스의 사용을 위해 상기 적용된 음향 모델을 변환하는 것을 특징으로 하는 음성 처리 시스템.
제9항에 있어서, 상기 맞춤형 음성 파라미터들은 상기 제1 연산 디바이스에서 획득된 음성에 상응하는 음향 채널 특성으로 정의되는 것을 특징으로 하는 음성 처리 시스템.
제9항에 있어서, 상기 맞춤형 음성 파라미터들은 상기 제1 연산 디바이스에서 획득된 음성에 상응하는 환경 특성으로 정의되는 것을 특징으로 하는 음성 처리 시스템.
제9항에 있어서, 상기 맞춤형 음성 파라미터들이 화자 인식 모델로 정의되는 것을 특징으로 하는 음성 처리 시스템.
제1 연산 디바이스에 존재하며, 맞춤형 음성 파라미터들을 획득하고, 맞춤형 음성 파라미터를 네트워크를 통해 전달하는 제1 음성 합성기; 및

제1 연산 디바이스와 상기 네트워크로 상호 연결된 제2 연산 디바이스에 존재하는 중간 음성 처리기를 포함하되,

상기 중간 음성 처리기는 맞춤형 음성 파라미터를 수신하고, 상기 제1 연산 디바이스와 다른 동작 특성을 갖고 있는 제3 연산 디바이스에서의 사용을 위해 상기 맞춤형 음성 파라미터를 변환하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성처리 시스템.
제28항에 있어서, 제2 음성 합성기는 상기 제3 연산 디바이스에 존재하며, 상기 변환된 맞춤형 음성 파라미터들을 억세스하고, 상기 변환된 맞춤형 음성 파라미터들을 사용하여 음성 합성을 실행하는 상기 음성 합성기를 포함하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성처리 시스템.
제28항에 있어서, 상기 제3 연산 디바이스에 존재하는 제2 음성 합성기를 포함하며, 상기 중간 음성 처리기는 상기 변환된 맞춤형 음성 파라미터들을 상기 제3 연산 디바이스에 존재하는 상기 음성 합성기로 전달하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성처리 시스템.
제28항에 있어서, 상기 중간 음성 처리기는 상기 변환된 맞춤형 음성 변수들을 상기 네트워크 환경에 상응한 데이터 구조에 저장하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성처리 시스템.
제31항에 있어서, 상기 데이터 구조는 상기 제1 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
제31항에 있어서, 상기 데이터 구조는 상기 제2 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
제31항에 있어서, 상기 데이터 구조는 상기 제3 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
제31항에 있어서, 상기 데이터 구조는 상기 네트워크 환경에 분산되어 있는 적어도 두개의 데이터 저장부에 존재하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
제28항에 있어서, 상기 중간 음성 처리기는 상기 제3 연산 디바이스를 위한 적어도 하나의 디바이스 파라미터들을 디바이스 파라미터 데이터 저장부에서 인출하고, 상기 제3 연산 디바이스를 위한 적어도 하나의 디바이스 파라미터들에 기초하여 상기 제3 연산 디바이스에서의 사용을 위한 상기 맞춤형 음성 파라미터들을 변환하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
제36항에 있어서, 상기 중간 음성 처리기는 상기 제3 연산 디바이스에 존재하는 사용 가능한 메모리 공간에 기초하여 상기 맞춤형 음성 파라미터들을 변환하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
제36항에 있어서, 상기 중간 음성 처리기는 상기 제3 연산 디바이스에 존재하는 사용 가능한 프로세서 자원에 기초하여 상기 맞춤형 음성 파라미터들을 변환하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
제36항에 있어서, 상기 중간 음성 처리기는 상기 제3 연산 디바이스에 존재하는 음성 어플리케이션의 형태에 기초하여 상기 맞춤형 음성 파라미터들을 변환하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
제28항에 있어서, 상기 맞춤형 음성 파라미터들이 연관된 음성 세그먼트로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
제28항에 있어서, 상기 맞춤형 음성 파라미터들이 제1 음성 합성기에 접근 가능한 운율학적 데이터베이스에 존재하는 운율학적 특성들로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
제41항에 있어서, 상기 운율학적 특성들은 적어도 하나의 음량 모델과 억양 패턴을 포함하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를위한 음성 처리 시스템.
제28항에 있어서, 상기 맞춤형 음성 파라미터들은 사용자 특유의 목소리 파라미터들로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
제28항에 있어서, 상기 맞춤형 음성 파라미터들이 소정의 선호하는 표기 데이터로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
제28항에 있어서, 상기 중간 음성 처리기가 상기 입력 문서를 정규화된 형식으로 변환하기 위해서, 상기 맞춤형 음성 파라미터들이 발음된 단어를 위한 입력 문서로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
제1 연산 디바이스에 존재하고, 제1 시스템 사용자에게 맞춤화된 음성 파라미터들을 획득하는 제1 음성 처리 어플리케이션; 및

제2 연산 디바이스에 존재하고, 제2 시스템 사용자에게 맞춤화된 음성 파라미터들을 획득하는 제2 음성 처리 어플리케이션; 및

상기 네트워크 환경의 제3 연산 디바이스에 존재하며, 상기 제1 및 제2 연산 디바이스에 존재하는 획득된 음성 파라미터들에 억세스하고, 상기 제1 및 제2 시스템 사용자들로부터 획득된 상기 음성 파라미터들에 기초하여 진보된(enhanced) 음성 파라미터들을 구체화하는 중간 음성 처리기를 포함하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
제46항에 있어서, 상기 중간 음성 처리기가 상기 진보된 음성 파라미터들을 적어도 하나의 상기 제1 음성 처리 어플리케이션과 상기 제2 음성 처리 어플리케이션으로 전달하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
제46항에 있어서, 제4 연산 디바이스에 존재하며 , 상기 진보된 음성 파라미터들에 억세스하고 상기 진보된 음성 파라미터들을 사용하여 음성 처리를 실행하는 제3 음성 처리 어플리케이션을 포함하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
제46항에 있어서, 상기 중간 음성 처리기는 상기 진보된 음성 파라미터들을 상기 네트워크 환경에 상응하는 데이터 구조에 저장하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
제49항에 있어서, 상기 데이터 구조가 적어도 하나의 상기 제1 연산 디바이스 및 상기 제2 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
제49항에 있어서, 상기 데이터 구조가 상기 제3 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
제49항에 있어서, 상기 데이터 구조가 상기 네트워크 환경에 분산되어 있는 적어도 두 개의 데이터 저장부에 존재하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
제46항에 있어서, 상기 획득된 음성 파라미터들이 음성 인식 파라미터들, 화자 인식 파라미터들, 및 음성 합성 파라미터들 중 적어도 하나로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
제46항에 있어서, 상기 중간 음성 처리기가 상기 음성 처리 시스템에서의 사용을 위해 선호하는 발음 표기(phonetic transcription)를 식별하도록, 상기 제1 시스템 사용자와 상기 제2 시스템 사용자로부터 획득된 상기 음성 파라미터들이 발음 표기로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
제46항에 있어서, 상기 중간 음성 처리기가 상기 획득된 목소리 프린트 데이터에 기초하여 임포스터 모델(imposter model)을 업데이트 하기 위해서, 상기 제1 시스템 사용자와 상기 제2 시스템 사용자로부터 획득된 상기 음성 파라미터들이 목소리 프린트 데이터로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
제46항에 있어서, 상기 제1 연산 디바이스와 상기 제2 연산 디바이스에서 획득된 상기 음성 파라미터들을 획득된 음성에 상응하는 음향 채널 특성 또는 환경 특성으로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
시스템 사용자의 제1 연산 디바이스로부터 맞춤형 음성 파라미터들에 대한 요구를 수신하는 단계;

제1 연산 디바이스와 다른 동작 특성을 갖는 제2 연산 디바이스에서의 사용을 위해서 상기 맞춤형 음성 파라미터들을 중간 음성 처리기를 사용하여 변환하는 단계; 및

상기 맞춤형 음성 파라미터들의 변환에 대한 서비스 요금을 평가하는 단계를 포함하는 것을 특징으로 하는 분산 음성 처리 시스템에서 진보된 음성 처리 서비스들을 제공하는 방법.
제57항에 있어서, 상기 맞춤형 음성 파라미터들을 변환하는 단계는 제1 연산 디바이스에서 상기 시스템 사용자에 의해서 맞춤형 음성 파라미터들을 획득하는 단계 및 상기 맞춤형 음성 파라미터들을 상기 중간 음성 처리기로 전달하는 단계를 포함하는 것을 특징으로 하는 분산 음성 처리 시스템에서 진보된 음성 처리 서비스들을 제공하는 방법.
제57항에 있어서, 상기 변환된 맞춤형 음성 파라미터들을 사용하여 상기 제2 연산 디바이스에서 음성 처리를 실행하는 단계를 포함하는 것을 특징으로 하는 분산 음성 처리 시스템에서 진보된 음성 처리 서비스들을 제공하는 방법.
제57항에 있어서, 상기 맞춤형 음성 파라미터들을 그 후의 음성 처리를 위해 상기 제1 연산 디바이스로 전송하는 단계를 포함하는 것을 특징으로 하는 분산 음성 처리 시스템에서 진보된 음성 처리 서비스들을 제공하는 방법.
제57항에 있어서, 상기 시스템 사용자에게 상기 서비스 요금을 부과하는 단계를 포함하는 것일 특징으로 하는 분산 음성 처리 시스템에서 진보된 음성 처리 서비스들을 제공하는 방법.
제57항에 있어서, 제3자에게 상기 서비스 요금을 부과하는 단계를 포함하는 것을 특징으로 하는 분산 음성 처리 시스템에서 진보된 음성 처리 서비스들을 제공하는 방법.
제57항에 있어서, 상기 맞춤형 음성 파라미터들은 적어도 하나의 음성 인식 파라미터들, 음성 합성 파라미터들, 그리고 화자 인식 파라미터들로 정의되는 것을 특징으로 하는 분산 음성 처리 시스템에서 진보된 음성 처리 서비스들을 제공하는 방법.