KR20050098839A - 네트워크 환경에서 음성 처리를 위한 중간 처리기 - Google Patents

네트워크 환경에서 음성 처리를 위한 중간 처리기 Download PDF

Info

Publication number
KR20050098839A
KR20050098839A KR1020057011309A KR20057011309A KR20050098839A KR 20050098839 A KR20050098839 A KR 20050098839A KR 1020057011309 A KR1020057011309 A KR 1020057011309A KR 20057011309 A KR20057011309 A KR 20057011309A KR 20050098839 A KR20050098839 A KR 20050098839A
Authority
KR
South Korea
Prior art keywords
speech
computing device
parameters
customized
processing system
Prior art date
Application number
KR1020057011309A
Other languages
English (en)
Inventor
피터 베프렉
테드 에이치. 애플바움
스티브 피어슨
로랜드 쿤
Original Assignee
마쓰시다 일렉트릭 인더스트리얼 컴패니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마쓰시다 일렉트릭 인더스트리얼 컴패니 리미티드 filed Critical 마쓰시다 일렉트릭 인더스트리얼 컴패니 리미티드
Publication of KR20050098839A publication Critical patent/KR20050098839A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

네트워크 환경에서 음성 어플리케이션의 음성 파라미터들을 맞춤화하기 위한 음성 처리 시스템을 제공한다. 상기 음성 처리 시스템은 제1 연산 디바이스에 존재하고 소정의 사용자에 대해 맞춤형 음성 파라미터들을 획득하고 상기 맞춤형 음성 파라미터들을 네트워크 환경으로 전달하는 음성 처리 어플리케이션 및 네트워크 환경의 제2 연산 디바이스에 존재하고 상기 맞춤형 음성 파라미터들을 수신하고 제3 연산 디바이스에서의 사용을 위해서 상기 맞춤형 음성 파라미터들을 변환하는 중간 음성 처리기를 포함한다.

Description

네트워크 환경에서 음성 처리를 위한 중간 처리기 {Intermediary For Speech Processing In Network Environments}
본 발명은 일반적으로 음성 처리 시스템에 관련된, 보다 상세하게는, 네트웍 환경의 서로 다른 음성 어플리케이션에서의 맞춤형(customizing) 음성 파라미터를 위한 중간 음성 프로세서(intermediary speech processor)에 관한 것이다.
음성 처리와 개인용 컴퓨터, 이동 전화 그리고 PDA 등과 같은 소비자 장치의 결합이 증가하고 있다. 음성 처리는 일반적으로 다음의 두 가지 방법 중의 한 가지 방법으로 구현된다. 음성 처리가 소비자 장치에서 실행되는 경우, 또는 소비자 장치와 서버간에 분산되어 있는 경우이다. 이러한 두 가지 방법의 문제점은 음성 처리의 계산적인 측면만을 다룬다는 것이다. 최근에, 사용자 모델들과 다른 사용자 특정 프래퍼런스(user specific preference)의 공유를 가능하게 하는 중간매체(intermediary)가 부족하다. 따라서, 사용자에 의해서 트레이닝 세션(session)과 다른 초기화 과정이 사용자의 서로 다른 장치들에서 반복적으로 실행되는 것이 필요하다. 다시 말해서, 최근의 음성 처리 아키텍처들은 이종의 사용자 장치에 존재하는 음성 어플리케이션간의 사용자 맞춤형(customization) 데이터의 공유가 지원하지 않는다.
도 1은 본 발명에 따른 음성 어플리케이션의 음성 파라미터를 맞춤화 하기 위한 음성 처리 시스템을 나타낸다.
도 2는 본 발명의 맞춤(customization) 기술을 어떻게 자동 음성 인식에 적용할 수 있는지를 나타낸다.
도 3은 본 발명의 맞춤 기술을 어떻게 화자 인식에 적용할 수 있는지를 나타낸다.
도 4는 본 발명의 맞춤 기술을 어떻게 음성 합성에 적용할 수 있는지를 나타낸다.
도 5는 본 발명의 음성 처리 시스템에서 진보된(enhanced) 음성 처리 서비스를 제공하기 위한 방법을 설명하는 흐름도이다.
본 발명의 목적은, 네트웍 환경의 음성 어플리케이션에 대한 음성 변수들을 맞춤화(customizing) 하는 음성 처리 시스템을 소개하는 것이다.
상기 음성 처리 시스템은 소정의 사용자를 위한 맞춤형 음성 파라미터를 획득하고 상기 맞춤형 음성 파라미터를 네트웍을 통해 전달하며, 제1 연산 디바이스에 존재하는 음성 처리 어플리케이션 및 상기 맞춤형 음성 파라미터를 수신하고 제3 연산 디바이스에서의 사용을 위해 상기 맞춤형 음성 파라미터를 변환하며, 상기 네트웍 환경의 제2 연산 디바이스에 존재하는 중간 음성 처리기를 포함한다.
본 발명과 본 발명의 목적 및 본 발명의 장점의 완벽한 이해를 위해서, 발명의 상세한 설명 및 첨부된 도면을 참조할 수 있다.
도1은 네트웍 환경의 음성 어플리케이션의 맞춤형 음성 파라미터를 위한 음성 처리 시스템(10)의 예를 나타낸다. 일반적으로 상기 음성 처리 시스템(10)은 네트웍(14)에 의해 연결된 적어도 두개의 사용자 디바이스(12)를 포함한다. 설명을 위한 목적으로, 상기 사용자 디바이스들은(12) 개인용 컴퓨터 또는 이동 전화기로 도시된다. 그러나, 팩스 또는 PDA와 같은 다른 형태의 사용자 디바이스들도 본 발명의 권리 범위에 포함된다는 것을 쉽게 알 수 있다.
음성 처리 어플리케이션(22)은 각각의 상기 사용자 디바이스(12)에 존재한다. 음성 처리 서비스들은 자동 음성 인식(automatic speech recognition), 음성 합성(speech synthesis), 화자 인식(speaker recognition), 음성 통화 관리(speech dialog management), 음성 검출(speech detect), 분광 등화(spectral equalization), 및 분광 정규화(spectral normalization)를 포함 할 수 있다.
동작에서, 상기 음성 처리 어플리케이션(22)은 최종 사용자(end user)로부터 다양한 사용자 음성 파라미터를 얻을 수 있다. 예를 들면, 전형적인 맞춤형 음성 파라미터들은 구술(dictation) 어플리케이션의 자동 음성 인식기(recognizer)에 의해서 사용되는 사용자 적응 음향 모델(user adapted acoustic model)일 것이다. 그러나, 다른 형태의 맞춤형 음성 파라미터들도 본 발명의 넓은 범위에 포함된다는 것을 쉽게 알 수 있다. 게다가, 맞춤형 음성 파라미터들은 음성 처리 서비스 형태에 기초하여 변할 수 있다.
한번 획득되면, 일반적으로 맞춤형 음성 파라미터들을 서로 다른 형태의 연산 디바이스에 존재하는 음성 어플리케이션들 사이에서 공유하기에 충분하지 않다. 따라서, 상기 음성 처리 어플리케이션 (22)은 서버(16)에 존재하는 중간 음성 처리기(intermediary speech processor, 20)와 네트웍 환경의 상기 맞춤형 음성 파라미터들의 통신을 위해 동작할 수 있다. 상기 맞춤형 음성 파라미터들은 상기 네트웍 환경에 상응하는 데이터 저장부(24)에 저장된다. 상기 데이터 저장부(24)는 상기 중간 음성 처리기 같은 연산 디바이스 또는 상기 네트웍 환경에 분산된 다중 데이터 저장부에 존재할 수 있다. 마찬가지로, 중간 음성 처리기(20)의 처리 능력들도 네트웍 환경의 다중 연산 디바이스들에 분산될 수 있다. 어떤 경우에도, 상기 데이터 저장부(24)는 상기 중간 음성 처리기(20)에 접속 가능하다.
본 발명에 따라, 상기 중간 음성 처리기들은 상기 맞춤형 음성 파라미터들을 수신하고, 서로 다른 연산 장치에서의 사용을 위해 상기 맞춤형 음성 파라미터들을 변환한다. 서로 다른 연산 장치들은 서로 다른 동작 특성을 가질 수 있기 때문에, 상기 중간 음성 처리기(20)는 서로 다른 연산 장치들의 동작 파라미터를 저장하고 있는 디바이스 특정 데이터 저장부(device specific data store, 26)에 억세스 한다. 아래에서 더욱 자세히 설명하겠지만, 음성 파라미터들을 위한 변환 과정(transformation process)은 타깃(target) 연산 장치의 동작 파라미터에 부분적으로 기초한다.
변환된 음성 파라미터들은 상기 네트워크 환경에 상응하는 데이터 저장부에 저장된다. 상기 데이터 저장부는 중간 음성 처리기 처럼 동일한 연산장치에 존재하거나 네트워크 환경의 다중 데이터 저장부에 분산되어 존재할 수도 있다. 어떤 경우라도, 변환된 음성 파라미터들은 타깃 연산 장치들에 억세스 한다. 끝으로, 상기 타깃 연산 장치는 상기 변환된 맞춤형 음성 파라미터들을 사용하여 음성 처리를 수행할 수 있다.
구술 시스템(dictation system)을 위한 자동 음성 인식기(automatic speech recognizer)와 관련된 언어 모델들과 음향 모델들은 일반적으로 상기 시스템 사용자에게 적응된다. 설명을 위해, 상기 본 발명의 맞춤(customization) 기술은 아래에서 자세히 설명되고 도 2에 도시된 바와 같이 음성 인식기의 언어 모델 및/또는 음향 모델에 적용될 수 있다.
일반적으로 언어모델들은 가능한 단어를 구성하는 것, 어떤 단어들이 동시에 발생하기 쉬운지, 어떤 순서인지에 대한 시스템의 지식과 관련된다. 하나의 실시 예로, 음성 인식기(30)를 위한 언어 모델(34)은 엔-그램(n-gram) 언어 모델(language model)의 편집물로 구체화할 수 있다. 예를 들어, 유니그램(unigram) 모델은 하나의 단어와 화자(speaker)가 그 단어를 사용할 확률로 정의된다. 반면에 바이그램(bigram) 모델은 한 단어와 상기 단어의 바로 앞 단어 그리고 이 두 단어가 순차적으로 사용될 확률로 정의된다. 구술 시스템(dictation system)에서, 상기 언어 모델을 포함하는 엔-그램(n-gram) 언어 모델은 종래 기술에서 잘 알려진 특정 시스템 사용자에게 적당할 수 있다.
대량-어휘 음성 인식기(large-vocabulary speech recognizer)에 대해서, 상기 언어 모델은 일반적으로 유니그램(unigram) 모델, 바이그램(bigram) 모델 그리고 트라이그램(trigram) 모델을 포함한다. 그러한 음성 인식기들은 개인용 컴퓨터 또는 상기 음성 인식기를 지원하는데 필요한 연산 능력 그리고/또는 메모리 공간을 갖고 있는 다른 유사한 연산 장치들에서 일반적으로 실행된다. 그러나, 상기 시스템 사용자가 그들의 맞춤형 언어 모델을 개인 컴퓨터에 비해 적은 연산 능력과 메모리 공간을 갖고 있는 핸드폰과 같은 다른 연산 장치에 올리(port)기 원할 수 있다. 따라서, 대량-어휘(large-vocabulary) 언어 모델(34)은 상기 중간 음성 처리기(32)에 의해서 억세스가 가능한 데이터 저장부(38)에 존재하는 상기 타깃 디바이스의 동작 특성에 따라서 상기 중간 음성 처리기(32)에 의해서 변환될 수 있다.
예를 들어, 상기 중간 음성 처리기(32)는 대량-어휘 언어 모델(large-vocabulary language model)의 크기를 이동 전화기의 메모리 공간에 기초하여 줄일 수 있다. 사용가능한 메모리 공간에 따라, 상기 중간 음성 처리기는 상기 트라이그램(trigram) 모델의 전체 또는 연관된 확률이 기준치(predetermined threshold) 보다 낮은 트라이그램(trigram) 모델을 제거할 수 있고, 따라서 적은 크기를 갖는 포터블(portable) 언어 모델을 형성할 수 있다. 상기 언어 모델의 크기를 더욱 줄이기 위해서, 상기 바이그램(bigram) 모델의 전부 및 트라이그램(trigram) 모델을 상기 언어 모델에서 삭제할 수 있다. 상기 변환 알고리즘은 상기 타깃 디바이스의 연산 능력, 사용가능한 연산 능력, 특별한 음성 처리 어플리케이션 그리고 이들의 몇몇 조합과 같은 다른 동작 특성에 기초하여 할 수 있다는 것을 쉽게 알 수 있다. 다른 형태의 변환 알고리즘들도 본 발명의 넓은 범위에 포함됨도 이해할 수 있다. 어떤 경우에도, 상기 변환된 음성 파라미터들은 후속 처리를 위해서 상기 중간 음성 처리기(32)에 의해서 데이터 저장부(39)에 저장된다.
마찬가지로, 구술 시스템(dictation system)의 자동 음성 인식기(automatic speech recognizer)를 위한 음향(acoustic) 모델들도 서로 다른 연산 장치에서의 사용을 위해서 변환할 수 있다. 일예로, Hidden Markov 모델을 상기 음성 인식기(speech recognizer)를 위한 상기 음향(acoustic) 모델에 사용할 수 있다. Hidden Markov 모델은 음소(音素)와 같은 하위-단어 단위들(sub-word unit)을 모형화 하는데 일반적으로 사용된다. 이러한 경우에, 상기 음성 인식기는 각각의 음소(音素)에 하나의 음향 모델(acoustic model)을 사용할 수 있다. 그러나, 인식의 정확성을 더욱 향상시키기 위해, 대량-어휘 음성 인식기들(large-vocabulary speech recognizers)은 문맥 의존적인 음향 모델을 일반적으로 사용한다. 예를 들어, 그러한 음성 인식기들은 이음 모델(diphone model), 삼음 모델(triphone model), 사음 모델(quadriphone 모델), 그리고 이웃하는 단음들을 고려하는 다른 음향 모델을 포함 할 수 있다. 위에서 언급한 바와 같이, 상기 중간 음성 처리기는 이동전화의 사용 가능한 메모리 공간에 기초하여 음향 모델의 수를 줄일 수 있다. 단어 수준(word-level) 또는 몇몇 다른 음성 하부 요소(speech sub-component)에서 정의된 음향 모델들은 본 발명의 범위에 포함된다. 게다가, 최대 가능 선형 회귀(maximum likelihood linear regression)와 최대 후부 적응(maximum a posteriori adaption)과 같은 공지된 어댑티브 기술들을 상기 음성 인식기에 의해서 사용되는 상기 음향 모델을 수정하는데 사용할 수 있다.
어댑티브 기술들은 음성 인식을 위한 음향 모델을 현재 사용자(current user)에게 잘 동작하도록 하는데 종종 사용된다. 예를 들어, 사용자가 구술을 위한 대량-어휘 음성 인식 시스템을 최초로 사용하기 시작할 때, 상기 음향 모델이 상기 사용자의 음성 특성을 반영하지 못하는 상기 시스템을 프리로드(pre-load) 하기 때문에, 상기 시스템은 단어 인식 에러를 종종 발생할 수 있다. 일단 상기 사용자가 일정시간 상기 시스템에 이야기를 하면, 어댑티브 기술은 상기 사용자의 저장된 음성에서 얻어진 정보를 상기 오리지널 음향 모델로 변환하는데 이용할 수 있고, 따라서 상기 현 사용자의 음성 특성을 보다 정확하게 반영하여 결과적으로 에러율을 낮을 수 있다. 종래 기술에서, 상기 사용자는 새로운 음성 장치를 사용하기 시작할 때마다 음성을 더욱 정확하게 만들기 위해서 상기 음성 모델을 유지해야만 한다. 이것은 시간 소모적인 방법이다. 따라서, 본 발명은 음향 모델이 학습되어 지고 따라서 소정의 사용자의 음성을 새로운 장치에 옮길 수 있도록 정확하게 모델을 만드는 것이 가능하다. 상기 사용자가 새로운 장치에 말을 하기 시작할 때, 새로운 장치는 그 사용자의 음성에 대한 단어 인식을 수행하도록 맞춤화된 모델들을 벌써 포함하고 있다.
마찬가지로, 어댑티브 기술들은 소정의 음향 환경의 특성을 습득할 수 있고,따라서 그러한 환경에서 음성 인식 시스템이 잘 동작하도록 한다. 예를 들어, 자동차 종류별, 방의 종류별로 각각 음향 특성을 갖고 있고, 그러한 환경에서 학습된 음성 인식 시스템은 그 환경에서 학습되지 않은 것 보다 잘 동작한다. 상기 본 발명은 소정의 환경의 특성에 대한 지식을 하나의 디바이스에서 다른 디바이스로 전달할 수도 있다. 따라서, 예를 들면, 자신의 PDA를 자신의 스포츠카에서 잘 동작하도록 학습시킨 사용자는 그 지식을 그 자동차에서 사용되는 새로 구입한 음성-기동(起動) (voice-activate)의 이동 전화로 전달할 수 있다.
음성 인식 시스템처럼, 화자(speaker) 인식(즉, 화자 검증 그리고 화자 인증)을 위한 시스템들은 음성의 음향 모델을 포함하고 있다. 도 3을 참고하면, 대표적인 화자 인식 시스템은 음향 모델을 위한 화자 인식기(speaker recognizer, 40) 및 데이터 저장부(44)를 포함한다. 그러한 시스템의 등록된 각각의 사용자는 GMM(Gaussian Mixture Model), HMM(Hidden Markov Model)또는 다른 형태의 음향 모델로 구체화 할 수 있는 사용자 목소리가 저장된 모델과 연관되어 있다. 상기 시스템에 새로운 음성 데이터가 주어지면, 상기시스템은 새로운 음성이 등록된 사용자중의 한 명의 것인지, 그렇다면 누구의 것인지를 결정하기 위해서 새로운 음성을 상기 저장된 모델과 비교한다.
등록을 위해서, 각 사용자는 그 또는 그녀의 목소리를 저장해야 한다. 저장된 데이터는 상기 모델을 저장된 화자에 대해서 학습시키는데 사용된다. 일반적으로, 특정 사용자에 대한 많은 음성을 저장할수록, 그 사용자에 대한 상기 모델은 더욱 정확해 진다. 일반적으로, 사용자는 자신의 모델을 각각의 디바이스에 독립적으로 학습시켜야 한다. 본 발명은 다른 장치에서도 사용할 수 있도록 화자 인식을 위한 화자 모델을 하나의 디바이스에 학습시킬 수 있다.
특별히, 상기 중간 음성 처리기(42)는 상기 화자 모델을 다른 디바이스에서 사용할 수 있게 변환 할 수 있다. 그렇게 하기 위해서, 상기 중간 음성 처리기(42)는 데이터 저장부(46)에 존재하는 디바이스 데이터에 억세스 한다. 상기 중간 음성 처리기(42)는 상기 변환된 화자 모델을 후속 처리를 위한 또 다른 데이터 저장부(48)에 저장시킨다. 따라서, 하나의 디바이스에 대해서 잘 학습된 화자 모델을 갖고 있는 사용자는 상기 목소리 중간 처리기가 그 사용자의 목소리에 대한 저장된 모델을 갖고 있기 때문에 두 번째 디바이스에 대해서 목소리 모델을 학습시킬 필요 없이, 두 번째 디바이스에서도 검증 또는 인증될 수 있다. 상기 목소리 중간 처리기는 상기 두 개의 디바이스 각각의 전형적인 왜곡에 대한 지식을 첫 번째 디바이스에서 학습된 모델을 변환시키고 두 번째 디바이스로 전달하게 하는 변환을 계산하는데 사용할 수 있다.
상기 본 발명의 맞춤(Customization) 기술은 음성 합성 처리에도 적용 가능하다. 예를 들어, 시스템 사용자는 개인용 컴퓨터에 존재하고 많은 수의 기본 목소리를 갖고 있는 연관-기반(concatenative-based) 합성기를 위해 선호하는 합성된 목소리를 선택할 수 있다. 게다가, 상기 사용자는 음조 윤곽선(pitch contour)을 가변 시키고 단락(pause) 읽기를 하는 방법으로 상기 합성된 목소리를 더욱 특화시킬 수 있다. 또 다른 예로, 상기 사용자는 자신의 목소리에 기초하여 선호하는 합성 목소리를 만들 수 있다. 두 예에서, 상기 연관-기반(concatenative-based) 합성기는 이음(diphones), 삼음(triphones) 그리고 다른 형태의 음단위(sound unit)를 포함하는 대형 음성 세그먼트 데이터베이스에 의존한다. 더욱이, 상기 데이터 베이스는 다른 환경(in different contexts)하에서 다른 음조(pitch) 및/또는 다른 음량(duration)을 가지는 동일한 음성 세그먼트를 포함하고 있을 수 있다.
상기 데이터베이스를 한정된 자원(resource)을 갖고 있는 타깃 디바이스에 올리기 위해서, 상기 중간 음성 처리기는 상기 데이터베이스에 존재하는 음성 세그먼트의 수를 줄일 필요가 있다. 위에서 설명한 것처럼, 상기 중간 음성 처리기는 상기 타깃 디바이스의 사용 가능한 메모리 공간에 기초하여 상기 데이터베이스의 크기를 줄일 수 있다. 그렇게 하기 위해서, 상기 중간 음성 처리기는 비슷한 음성표기 문장(phonetic context)에서 많이 발생하는 음성 세그먼트들을 검출하는 변환 알고리즘(transformation algorithm)을 사용할 수 있다. 선택적으로, 상기 중간 음성 처리기는 삼음(triphone), 그리고/또는 사음(quadriphones)을 제거할 수 있지만, 상기 데이터베이스에 존재하는 이음(diphones)은 유지한다. 하지만 다른 접근법에서는, 상기 중간 음성 처리기는 비슷하게 발음되는 그러한 단위들을 무너뜨린다. 예를 들어, 더욱 포괄적인 데이터 베이스는 /t/소리의 다른 버전을 갖는 음성 세그먼트를 포함할 수 있다. 이 경우에, 음향상으로는 유사하지만 다른 음성 단위(speech segment)들은 하나의 대표 음성 세그먼트로 그룹 지울 수 있다. 당업자들에게 자명한 것처럼, 상기 변환 알고리즘은 상기 타깃 디바이스의 공간적인 필요조건을 만족시키기 위해 변환할 수 있다. 한번 상기 디바이스의 사이즈가 얻어 지면, 상기 변환된 데이터베이스는 상기 타깃 디바이스에 억세스 할 수 있고 전송될 수 있다.
종래 기술에서 잘 알려진 것처럼, 상기 음성 합성기는 운율학(prosodic) 데이터베이스에도 의지 할 수 있다. 상기 운율학(prosodic) 데이터베이스는 상기 음성 합성기가 합성을 향상시키기 위해 사용되는 다양한 운율학적인 특성(attribute)을 포함한다. 운율학적 특성은 진폭(amplitude), 음량(duration) 그리고 억양(intonation)을 포함한다. 상기 운율학적 특성은 서로 다른 문맥에 나타나고 음성의 합성 시에 마주치게 되는 문맥 또는 특성에 기초하여 결과들의 맞춤(customization)을 가능하게 하는 서로 다른 음성 세그먼트를에 대해 개별적으로 저장 될 수 있다. 마찬가지로, 상기 운율학적 특성들은 정규화된(normalized) 형태로 저장할 수 있고, 합성 시 사용 가능한 데이터에 기초하여 적당한 최종 형태로 변환할 수 있다. 상기 운율학적 데이터베이스는 운율학적 탬플릿(template) 리스트, 의사결정 트리(decision tree), 제품의 합(sum-of-product) 모델 또는 신경 네트워크(neural network)와 같은 다양한 방법으로 구성할 수 있다. 따라서, 제1 디바이스에 존재하는 운율학적 특성들은 다른 장치에서의 사용을 위해 상기 중간 음성 처리기에 의해서 같은 방법으로 변환될 수 있다.
선택적으로, 상기 타깃 디바이스는 파라메트릭 포맷 기반(parametric format-based) 합성기를 사용할 수 있다. 이 경우에, 상기 중간 음성 처리기는 원하는 맞춤형(customized) 목소리를 위한 대표적인 형태의 파라미터를 유도해야 한다. 하나의 예시적인 접근법에서, PC에 존재하는 음성 합성기(50)는 도 3에 나타난 상기 중간 음성 처리기(54)에 맞춤형(customized) 목소리의 표본 발음(sample utterance, 52)을 제공한다. 상기 중간 음성 처리기(intermediary speech processor, 54)는 표본 발음 (sample utterance)에 대한 음성 분석을 차례로 수행할 것이다. 특별히, 상기 증간 음성 처리기(intermediary speech processor,54) 파형(waveform)에 대한 포맷 분석을 수행하고, 그것에 의하여 상기 맞춤형(customized) 목소리를 위한 포맷 주파수와 대역폭을 결정한다. 상기 인증된 포맷 파라미터들은 타깃 디바이스의 포맷 기반의 합성기의 사용을 위해 중간 음성 처리기에 의해서 상기 타깃 디바이스로 보내진다. 마찬가지로, 상기 중간 음성 처리기(intermediary speech processor)는 평균음성비(average speech rate), 평균피치(average pitch), 피치 범위(pitch range) 등과 같은 상기 맞춤형 목소리를 위한 다른 파라미터들을 결정할 수 있다. 또한 이러한 부가적인 음성 파라미터들은 타깃 디바이스의 포맷 기반의 합성기에 의한 사용을 위해 상기 타깃 디바이스에 공급된다.
상기 중간 음성 처리기는 복수의 다른 사용자들의 음성 처리 데이터에 기초한 음성 파라미터들을 명확히 하기 위해 또한 형성될 수 있다. 제1 연산 디바이스에 존재하는 제1 음성 처리 어플리케이션은 제1 시스템 사용자를 위해 맞춤형(customized) 음성 파라미터를 획득한다. 반면에 제2 연산 디바이스에 존재하는 2차 음성 처리 어플리케이션은 2차 시스템 사용자를 위해 맞춤형(customized) 음성 파라미터들을 획득한다.
획득된 음성 파라미터들은 네트워크 환경의 제3 연산 장치에 존재할 수 있는 상기 중간 음성 처리기에 접근하기 쉽다. 상기 중간 음성 처리기는 음성 처리 시스템상의 사용을 위한 진보된 음성 파라미터(enhanced speech parameter)를 구체화할 수 있다. 상기 진보된 음성 파라미터는 상기 네트워크 환경과 연결된 데이터 저장부에 저장되고, 타깃 연상장치에 접근 가능하다. 마지막으로, 상기 타깃 연산 장치는 진보된 음성 파라미터를 사용하는 음성 처리 서브를 수행할 수 있다.
음성 합성과 관련된 일예가 아래에서 보다 자세히 설명된다. 하나의 음성 합성기는 일반적으로 발음되는 단어(spelled word)를 합성 시에 순서대로 사용될 발음 표기(phonetic transcription)로 변환하는 문자-소리(letter-to-sound) 모듈(즉, phoneticizer)을 포함한다. 그러나, 많은 단어들은 두 개의 발음을 갖고 있고, 그 결과 문자-소리 모듈은 단어에 대해서 다중의 발음 기호를 만들 수 있다. 예를 들어, "Houston"이란 단어는 /H Y UW S T EN/ 또는 /H AW S T EN/처럼 발음될 수 있다. 제1차 변형(variant)은 일반적이어서, 합성기를 위한 기본 발음으로 선정될 수 있다. 상기 음성 합성기가 사람에 의해서는 쉽게 교정할 수 있지만 음성 합성기에 의한 교정을 위해서는 보다 복잡한 처리를 필요로 하는 약어(abbreviation), 오타(mis-typing) 또는 다른 결함(defect)을 포함하고 있는 입력 문서를 수신할 수 있음을 알 수 있다. 이러한 경우, 상기 음성 합성기는 이러한 결함을 정정하기 위해, 예를 들어, "James St."를 "James Street"로 또는 "St. James"를 "Saint James"로 변환하는 문서 정규화 기능(text normalization function)을 추가적으로 포함하고 있다. 이러한 문서 정규와 기능은 상기 중간 음성 처리기에 의해서 실행될 수 있다.
상기 합성기와 관련된 대화 매니저는 사용자와 상기 합성기의 상호작용을 관찰 할 수 있다. 어떤 단어의 반복적인 합성 그리고/또는 철자법 모드(spelling mode)의 사용과 같은 사용자의 행동은 잘못된 발음 표시의 역할을 할 수 있다. 이러한 경우, 상기 대화 매니저는 다른 표기의 사용을 유발할 수 있다. 만일 상기 새로운 표기(transcription)가 문제점이 적다고 입증되면, 상기 합성기에 의한 사용에 선호되는 표기로 특징지을 수 있다.
동작 중에, 상기 중간 음성 처리기는 상기 네트워크 환경의 다른 디바이스들로부터 선호되는 표기 데이터(preferred transcription data)와 같은 데이터들을 수집할 수 있다. 수집된 데이터들은 현존하는 또는 새로운 시스템 사용자에 의해 다운로드 될 수 있는 선호되는 표기의 기준선(baseline) 데이터베이스로 구체화될 수 있다. 양자택일로, 상기 중간 음성 처리기는 다양한 시스템 사용자의 물리적인 위치도 또한 알 수 있다. 따라서, 상기 중간 음성 처리기는 특별한 지리적인 영역내의 사용자들은 특정한 발음에 대한 반복적인 문제점을 갖고 있음을 추론할 수 있도록 형성될 수 있다. 결과적으로, 상기 중간 음성 처리기는 확인된 영역에 대해서 대안의(alternative) 발음을 사용하도록 상기 디바이스들에게 통보하는 동작을 할 수 있다. 상기 대안의 발음이 상기 타깃 디바이스에서 유용하지 않은 정도까지, 상기 중간 음성 처리기는 상기 대안 발음을 상기 타깃 디바이스로 또한 다운로드 할 수 있다.
네트워크 상의 서로 다른 디바이스로부터 수집할 수 있는 다른 형태의 데이터는 별개의 합성된 목소리에 대한 사용자의 반응이다. 많은 별개의 사용자들로부터의 피드백을 수집하고 분석함으로써, 어떤 목소리들은 매우 대중적이고, 어떤 목소리들은 매우 대중적이지 않은지, 또는 특정 목소리의 대중성은 인구 통계적인 요소(즉, 어떤 목소리는 텍사스에 거주하는 젊은 여성들에게 인기 있을 수 있지만, 다른 지역에서는 인기가 없을 수 있다)에 의존함을 결정할 수 있다. 예를 들어, 이러한 정보는 음성 합성 어플리케이션을 위한 목소리를 선정할 때 어떤 합성된 목소리가 새로운 고객에게 처음으로 들려질 지지를 결정하는데 도움을 줄 수 있다.
다른 시스템 사용자에 대한 데이터 풀링(pooling) 또한 음성 인식을 위한 장점을 야기 시킨다. 예를 들어, 음성 인식 시스템과 통합된 음향 모델(acoustic model)은 다양한 사용자로부터 수집된 많은 수의 음성에 대한 학습을 통해 장점을 가진다. 네트워크 상의 많은 수의 서로 다른 사용자와 디바이스로부터의 음성 데이터의 수집은 새로운 사용자를 위한 상기 음향 모델이 학습되는데 데이터를 공급할 것이다. 선택적으로, 수집된 데이터의 인구 통계적 기원에 관한 지식은 새로운 사용자들의 하위 그룹을 위한 맞춤형 음향 모델을 학습시키는데 사용될 수 있다. 예를 들어, 조지아 출신의 새로운 남성 고객의 음성 인식기를 위한 초기 음향 모델은 주로 조지아에 거주하는 남성들로부터 수집된 음성에 대해서 학습될 것이다.
다른 예에서, 마이크로폰 또는 이동 전화기와 같은 새로운 음성 입력 디바이스(speech input device)가 시장에 소개될 때, 상기 중간 음성 처리기에 의해서 상기 음성 입력 디바이스를 처음 사용하는 사용자들로부터 데이터가 수집된다. 수집된 데이터는 음성 입력 디바이스와 관련된 음향 왜곡(distortion)을 보상하는데 필요한 수학적인 변환을 평가하는데 사용될 수 있다. 그 후에 상기 중간 음성 처리기는 수집된 데이터를 상기 음성 입력 디바이스를 사용하는 다른 사용자들과 공유할 수 있다. 또한 데이터 풀링은 다른 형태의 음성 처리 서비스들에 적용할 수 있음을 쉽게 이해할 수 있다.
화자 인식(speaker recognition)은 어떻게 중간 음성 처리기가 서로 다른 사용자들의 데이터에 대한 풀링(pooling)에 기초하여 진보된(enhanced) 음성 처리 서비스를 제공할 수 있는지에 대한 또 다른 예를 제공한다. 화자 인식에서, 개별 사용자의 목소리에 대한 검증 모델(즉, voiceprint)이 있다. 게다가, 상기 화자 인식 시스템은 모집단의 남은 사람들을 나타내는 의도의 임포스터 모델(imposter model)을 사용할 수도 있다. 이러한 예에서, 상기 중간 음성 처리기는 네트워크 환경의 서로 다른 최종 사용자 그리고/또는 서로 다른 디바이스를 위한 음성 데이터를 수집할 수 있다. 사용자들로부터 수집되지만 상기 화자 인식 시스템에 등록되지 않는 데이터는 임포스터 모델(imposter model)을 업데이트 하는데 사용된다. 서로 다른 임포스터 모델(imposter model)은 상기 최종 사용자의 지리적인 위치를 기반으로 지역 방언 또는 강세를 보상하는데 구체화될 수 있다.
상기 본 발명의 다른 측면에서, 상기 중간 음성 처리기는 음성 처리 시스템에서 진보된 음성 처리 서비스를 제공하기 위한 독특한 사업 모델(business model)을 가능하게 한다. 도 4는 상기 최종 사용자에 대한 과금에 기초하여 진보된 음성 처리 서비스를 제공하기 위한 대표적인 방법론을 설명하고 있다. 첫째, 최종 사용자가 중간 음성 처리기(42)에 나타난 서비스 공급자(service provider)에 의해 제공되는 특정 서비스를 요청함으로써 프로세스가 초기화된다. 일예로, 상기 최종 사용자는 자신의 연산 디바이스중의 하나에서 상기 중간 음성 처리기로 상기 네트웍을 통해 요청(request)을 전달한다. 예를 들어, 상기 최종 사용자들은 그들의 개인용 컴퓨터에 존재하는 맞춤형 음성 파라미터들을 그들의 이동 전화기에 올려달라고(port) 요청 할 수 있다. 상기 요청(request)은 다양한 형식으로 구체화되고 상기 서비스 공급자(service provider)에게 전달될 것이라는 것을 쉽게 알 수 있다.
그 다음, 상기 서비스 공급자는 상기 진보된 음성 처리 서비스를 음향모델(44)에 나타난 봐와 같이 상기 최종 사용자에게 제공한다. 일예로, 상기 맞춤형 음성 파라미터들은 상기 중간 음성 처리기에 의해서 이동전화기에서 사용할 수 있게 변환된다. 또 다른 예로, 상기 진보된(enhanced) 음성 처리 서비스는 상기 최종 사용자의 화자 인식이 될 수 있다. 즉, 상기 최종 사용자가 약간의 단어를 말한 후, 상기 중간 음성 처리기는 상기 말해진 단어의 목소리 특성과 상기 최종 사용자 목소리의 저장된 모델에 기초하여 그 또는 그녀를 인식할 것이고 상기 사용자 확인을 제3자에게 알려줄 것이다. 예를 들어, 누군가가 나에게 은행에 전화를 걸고 나의 재정상태에 대한 기밀 정보를 요구하도록 요구할 수 있다. 이 예에서, 발신자의 목소리 특성과 나의 저장된 목소리를 비교하기 위해서 상기 중간 음성 처리기가사용 될 수 있고, 발신자가 누구인지에 대해 은행에 알려줄 수 있다. 우선의 예에서, 이러한 인증(authentication) 단계는 상기 화자 인식 단계에 부가적으로 다른 확인 정보(즉, PIN number)를 포함한다.
마지막으로, 상기 최종 사용자에게 디바이스 데이터(46)에서 진보된 음성 처리 서비스를 위한 요금이 부과된다. 각각의 서비스는 고정된 요금 또는, 선택적으로, 상기 중간 음성 처리기에 의해서 제공되는 서비스들의 종류 또는 양에 기초하여 정해지는 서비스 요금으로 제공될 수도 있다.
선택적으로, 제3자에게 상기 최종 사용자에게 제공되는 음성 처리 서비스에 대한 요금이 부과될 수 있다. 예를 들어, 은행에서 최종 사용자의 계좌 잔고를 알려주기 위해 음성 합성을 사용하는 서비스를 제공 할 수도 있다. 상기 합성된 음성의 품질을 향상시키기 위해서, 상기 은행은 메시지 원문과 함께 억양 패턴(intonation pattern)을 상기 사용자의 디바이스 존재하는 상기 합성기로 보내기를 원할 수 있다. 상기 억양패턴(intonation pattern)은 상기 합성된 음성의 품질을 향상시키기 위해서 상기 합성기에 의해서 사용된다. 게다가, 상기 최종 사용자가 아닌 상기 은행에 상기 진보된(enhanced) 음성 처리 서비스 제공에 대한 서비스 요금을 부과할 수 있다. 다른 예로, 상기 중간 음성 처리기는 상기 은행을 대신하여 언어 모델을 하나 이상의 최종 사용자에게 제공할 수 있다.
마찬가지로, 상기 중간 음성 처리기는 소정의 고객에게 공급될 목소리를 그 고객의 선호도에 기초하여 맞춤화 할 수도 있다. 따라서 상기 은행에서 공급되는 같은 원문(text)을 어떤 고객에게는 부드러운 여성의 목소리로 들릴 수 있는 반면, 또 다른 고객에게는 사무적이고 약간 쉰 남성의 목소리로 들릴 수 도 있다. 또한 상기 중간 음성 처리기는 상기 은행에 소정의 사용자에 맞춰진 음향 모델을 제공할 수도 있고, 따라서 소정의 사용자가 상기 은행에서 제공하는 음성-인식 서비스(speech-activated service)에 접근할 때, 소정의 사용자에 대한 단어 인식 오류의 횟수가 최소가 된다는 것을 보증한다. 비슷한 방법으로, 음성 중간매체(speech intermediary)는 소정의 사용자를 위해 저장된 상기 목소리 모델을 사용하여 현재 은행과 이야기를 하고 있는(예를 들어 전화를 통해서) 사람이 서비스를 요구하는 그 또는 그녀 일수도 있고 아닐 수도 있다는 것을 상기 은행에 알릴 수 있다. 상기 음성 중간 매체는 제3자(예를 들어 상기 은행)가 쉽게 접근 가능하지 않아 기꺼이 비용을 지불할만한 가치가 있는 특정 디바이스들과 특정 사용자들과 관련된 많은 음성-관련 정보를 갖고 있다. 상기 중간 음성 처리기에 의해서 가능해진 다른 형태의 비즈니스 모델들은 상기 본 발명의 범위에 포함됨을 쉽게 알 수 있다.
본 발명은 현재 바람직한 형태로 설명되었지만, 첨부된 청구항에서 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명을 변경할 수 있음을 이해할 수 있을 것이다.

Claims (63)

  1. 제1 연산 디바이스에 존재하고, 소정의 사용자에 대한 맞춤형 음성 파라미터들을 획득하고, 상기 맞춤형 음성 파라미터를 네트워크를 통해 전달하는 제1 음성 처리 어플리케이션; 및
    상기 제1 연산 디바이스와 상기 네트워크로 상호 연결된 제2 연산 디바이스에 존재하는 중간 음성 처리기를 포함하되,
    상기 중간 음성 처리기는 맞춤형 음성 파라미터들을 수신하고, 상기 제1 연산 디바이스와 서로 다른 동작 특성을 갖는 제3 연산 디바이스에서의 사용을 위해 상기 맞춤형 음성 파라미터를 변환하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터를 맞춤화 하기 위한 음성 처리 시스템.
  2. 제1항에 있어서, 상기 제3 연산 디바이스에 존재하며, 상기 변환된 맞춤형 음성 파라미터들을 억세스하고 상기 변환된 맞춤형 음성 파라미터를 사용하여 음성 처리를 수행하는 제2 음성 처리 어플리케이션을 포함하는 것을 특징으로 하는 음성 처리 시스템.
  3. 제1항에 있어서, 상기 제3 연산 디바이스에 존재하는 상기 제2 음성 처리 어플리케이션을 포함하고, 상기 중간 음성 처리기는 상기 변환된 맞춤형 음성 파라미터들을 상기 제3 연산 디바이스에 존재하는 상기 제2 음성 어플리케이션으로 전송하는 것을 특징으로 하는 음성 처리 시스템.
  4. 제1항에 있어서, 상기 중간 음성 처리기는 상기 변환된 맞춤형 음성 파라미터들을 네트워크 환경에 상응하는 데이터 구조에 저장하는 것을 특징으로 하는 음성 처리 시스템.
  5. 제4항에 있어서, 상기 데이터 구조가 상기 제1 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
  6. 제4항에 있어서, 상기 데이터 구조가 상기 제2 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
  7. 제4항에 있어서, 상기 데이터 구조가 상기 제3 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
  8. 제4항에 있어서, 상기 데이터 구조가 네트워크 환경에 분산되어 있는 적어도 두개의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
  9. 제1 연산 디바이스에 존재하며, 소정의 화자에 대한 맞춤형 음성 파라미터를 획득하고 상기 맞춤형 음성 파라미터를 네트워크 상으로 전달하는 적어도 하나의 제1 음성 인식기와 제1 화자 인식기; 및
    제1 연산 디바이스와 상기 네트워크를 통해서 상호 연결된 제2 연산 디바이스에 존재하는 중간 음성 처리기를 포함하되,
    상기 중간 음성 처리기는 맞춤형 음성 파라미터를 수신하고 상기 맞춤형 음성 파라미터를 제1 연산 디바이스와 다른 동작 특성을 갖는 제3 연산 디바이스의 사용을 위해 변환하는 것을 특징으로 하는 네트워크 상의 음성 파라미터들의 맞춤화를 위한 음성 처리 시스템.
  10. 제 9항에 있어서, 제3 연산 디바이스에 존재하며, 상기 변환된 맞춤형 음성 파라미터에 억세스하고 상기 변환된 맞춤형 음성 파라미터를 사용하여 음성 처리를 수행하는 적어도 하나의 제2 음성 인식기와 제2 화자 인식기를 포함하는 것을 특징으로 하는 음성 처리 시스템.
  11. 제 9항에 있어서, 상기 제3 연산 디바이스에 존재하는 적어도 하나의 제2 음성 인식기와 제2 화자 인식기를 포함하며, 상기 중간 음성 처리기는 상기 변환된 맞춤형 음성 파라미터들을 상기 제3 연산 디바이스에 존재하는 적어도 하나의 상기 제2 음성 인식기와 상기 제2 화자 인식기로 전송하는 것을 특징으로 하는 음성 처리 시스템.
  12. 제9항에 있어서, 상기 중간 음성 처리기는 상기 변환된 맞춤형 음성 파라미터들을 네트워크 환경에 상응하는 데이터 구조에 저장하는 것을 특징으로 하는 음성 처리 시스템.
  13. 제12항에 있어서, 상기 데이터 구조가 상기 제1 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
  14. 제12항에 있어서, 상기 데이터 구조가 상기 제2 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
  15. 제12항에 있어서, 상기 데이터 구조가 상기 제3 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
  16. 제12항에 있어서, 상기 데이터 구조가 상기 네트워크 환경에 분산되어 있는 적어도 두개의 데이터 저장부에 존재하는 것을 특징으로 하는 음성 처리 시스템.
  17. 제9항에 있어서, 상기 중간 음성 처리기는 상기 제3 연산 장치에 대한 적어도 하나의 디바이스 파라미터들을 디바이스 파라미터 저장부로부터 추출하고, 상기 제3 연산 디바이스를 위한 적어도 하나의 디바이스 파라미터들에 기초하여 상기 맞춤형 음성 파라미터들을 상기 제3 연산 장치에서 사용을 위해 변환하는 것을 특징으로 하는 음성 인식 시스템.
  18. 제17항에 있어서, 상기 중간 음성 처리기는 상기 제3 연산 디바이스에 존재하는 사용가능한 메모리 공간에 기초하여 상기 맞춤형 음성 파라미터들을 변환하는 것을 특징으로 하는 음성 처리 시스템.
  19. 제17항에 있어서, 상기 중간 음성 처리기가 상기 제3 연산 디바이스의 사용가능한 프로세서 자원에 기초하여 상기 맞춤형 음성 파라미터들을 변환하는 것을 특징으로 하는 음성 처리 시스템.
  20. 제17항에 있어서, 상기 중간 음성 처리기가 상기 제3 연산 디바이스에 존재하는 음성 어플리케이션의 형태에 기초하여 상기 맞춤형 음성 파라미터들을 변환하는 것을 특징으로 하는 음성 처리 시스템.
  21. 제9항에 있어서, 상기 맞춤형 음성 파라미터들은 음성 인식 모델로 정의되는 것을 특징으로 하는 음성 처리 시스템.
  22. 제9항에 있어서, 상기 제3 연산 디바이스의 동작 특성에 기초하여 상기 중간 음성 처리기가 상기 언어 모델에 존재하는 상기 파라미터들을 변환하도록, 상기 맞춤형 음성 파라미터들이 다수의 파라미터를 갖고 있는 언어 모델로 정의되는 것을 특징으로 하는 음성 처리 시스템.
  23. 제9항에 있어서, 상기 제3 연산 디바이스의 동작 특성에 기초하여 상기 중간 음성 처리기가 복수의 음향 모델을 변경하기 위해, 상기 맞춤형 음성 파라미터들을 상기 제1 음성 합성기에 의해서 사용되는 복수의 음향 모델들로 정의되는 것을 특징으로 하는 음성 처리 시스템.
  24. 제24항에 있어서, 상기 제1 음성 인식기는 소정의 화자를 위한 복수의 음향 모델 적용시키고, 상기 중간 음성 처리기는 상기 제3 연산 디바이스의 사용을 위해 상기 적용된 음향 모델을 변환하는 것을 특징으로 하는 음성 처리 시스템.
  25. 제9항에 있어서, 상기 맞춤형 음성 파라미터들은 상기 제1 연산 디바이스에서 획득된 음성에 상응하는 음향 채널 특성으로 정의되는 것을 특징으로 하는 음성 처리 시스템.
  26. 제9항에 있어서, 상기 맞춤형 음성 파라미터들은 상기 제1 연산 디바이스에서 획득된 음성에 상응하는 환경 특성으로 정의되는 것을 특징으로 하는 음성 처리 시스템.
  27. 제9항에 있어서, 상기 맞춤형 음성 파라미터들이 화자 인식 모델로 정의되는 것을 특징으로 하는 음성 처리 시스템.
  28. 제1 연산 디바이스에 존재하며, 맞춤형 음성 파라미터들을 획득하고, 맞춤형 음성 파라미터를 네트워크를 통해 전달하는 제1 음성 합성기; 및
    제1 연산 디바이스와 상기 네트워크로 상호 연결된 제2 연산 디바이스에 존재하는 중간 음성 처리기를 포함하되,
    상기 중간 음성 처리기는 맞춤형 음성 파라미터를 수신하고, 상기 제1 연산 디바이스와 다른 동작 특성을 갖고 있는 제3 연산 디바이스에서의 사용을 위해 상기 맞춤형 음성 파라미터를 변환하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성처리 시스템.
  29. 제28항에 있어서, 제2 음성 합성기는 상기 제3 연산 디바이스에 존재하며, 상기 변환된 맞춤형 음성 파라미터들을 억세스하고, 상기 변환된 맞춤형 음성 파라미터들을 사용하여 음성 합성을 실행하는 상기 음성 합성기를 포함하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성처리 시스템.
  30. 제28항에 있어서, 상기 제3 연산 디바이스에 존재하는 제2 음성 합성기를 포함하며, 상기 중간 음성 처리기는 상기 변환된 맞춤형 음성 파라미터들을 상기 제3 연산 디바이스에 존재하는 상기 음성 합성기로 전달하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성처리 시스템.
  31. 제28항에 있어서, 상기 중간 음성 처리기는 상기 변환된 맞춤형 음성 변수들을 상기 네트워크 환경에 상응한 데이터 구조에 저장하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성처리 시스템.
  32. 제31항에 있어서, 상기 데이터 구조는 상기 제1 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
  33. 제31항에 있어서, 상기 데이터 구조는 상기 제2 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
  34. 제31항에 있어서, 상기 데이터 구조는 상기 제3 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
  35. 제31항에 있어서, 상기 데이터 구조는 상기 네트워크 환경에 분산되어 있는 적어도 두개의 데이터 저장부에 존재하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
  36. 제28항에 있어서, 상기 중간 음성 처리기는 상기 제3 연산 디바이스를 위한 적어도 하나의 디바이스 파라미터들을 디바이스 파라미터 데이터 저장부에서 인출하고, 상기 제3 연산 디바이스를 위한 적어도 하나의 디바이스 파라미터들에 기초하여 상기 제3 연산 디바이스에서의 사용을 위한 상기 맞춤형 음성 파라미터들을 변환하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
  37. 제36항에 있어서, 상기 중간 음성 처리기는 상기 제3 연산 디바이스에 존재하는 사용 가능한 메모리 공간에 기초하여 상기 맞춤형 음성 파라미터들을 변환하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
  38. 제36항에 있어서, 상기 중간 음성 처리기는 상기 제3 연산 디바이스에 존재하는 사용 가능한 프로세서 자원에 기초하여 상기 맞춤형 음성 파라미터들을 변환하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
  39. 제36항에 있어서, 상기 중간 음성 처리기는 상기 제3 연산 디바이스에 존재하는 음성 어플리케이션의 형태에 기초하여 상기 맞춤형 음성 파라미터들을 변환하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
  40. 제28항에 있어서, 상기 맞춤형 음성 파라미터들이 연관된 음성 세그먼트로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
  41. 제28항에 있어서, 상기 맞춤형 음성 파라미터들이 제1 음성 합성기에 접근 가능한 운율학적 데이터베이스에 존재하는 운율학적 특성들로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
  42. 제41항에 있어서, 상기 운율학적 특성들은 적어도 하나의 음량 모델과 억양 패턴을 포함하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를위한 음성 처리 시스템.
  43. 제28항에 있어서, 상기 맞춤형 음성 파라미터들은 사용자 특유의 목소리 파라미터들로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
  44. 제28항에 있어서, 상기 맞춤형 음성 파라미터들이 소정의 선호하는 표기 데이터로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
  45. 제28항에 있어서, 상기 중간 음성 처리기가 상기 입력 문서를 정규화된 형식으로 변환하기 위해서, 상기 맞춤형 음성 파라미터들이 발음된 단어를 위한 입력 문서로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터의 맞춤화를 위한 음성 처리 시스템.
  46. 제1 연산 디바이스에 존재하고, 제1 시스템 사용자에게 맞춤화된 음성 파라미터들을 획득하는 제1 음성 처리 어플리케이션; 및
    제2 연산 디바이스에 존재하고, 제2 시스템 사용자에게 맞춤화된 음성 파라미터들을 획득하는 제2 음성 처리 어플리케이션; 및
    상기 네트워크 환경의 제3 연산 디바이스에 존재하며, 상기 제1 및 제2 연산 디바이스에 존재하는 획득된 음성 파라미터들에 억세스하고, 상기 제1 및 제2 시스템 사용자들로부터 획득된 상기 음성 파라미터들에 기초하여 진보된(enhanced) 음성 파라미터들을 구체화하는 중간 음성 처리기를 포함하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
  47. 제46항에 있어서, 상기 중간 음성 처리기가 상기 진보된 음성 파라미터들을 적어도 하나의 상기 제1 음성 처리 어플리케이션과 상기 제2 음성 처리 어플리케이션으로 전달하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
  48. 제46항에 있어서, 제4 연산 디바이스에 존재하며 , 상기 진보된 음성 파라미터들에 억세스하고 상기 진보된 음성 파라미터들을 사용하여 음성 처리를 실행하는 제3 음성 처리 어플리케이션을 포함하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
  49. 제46항에 있어서, 상기 중간 음성 처리기는 상기 진보된 음성 파라미터들을 상기 네트워크 환경에 상응하는 데이터 구조에 저장하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
  50. 제49항에 있어서, 상기 데이터 구조가 적어도 하나의 상기 제1 연산 디바이스 및 상기 제2 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
  51. 제49항에 있어서, 상기 데이터 구조가 상기 제3 연산 디바이스의 데이터 저장부에 존재하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
  52. 제49항에 있어서, 상기 데이터 구조가 상기 네트워크 환경에 분산되어 있는 적어도 두 개의 데이터 저장부에 존재하는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
  53. 제46항에 있어서, 상기 획득된 음성 파라미터들이 음성 인식 파라미터들, 화자 인식 파라미터들, 및 음성 합성 파라미터들 중 적어도 하나로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
  54. 제46항에 있어서, 상기 중간 음성 처리기가 상기 음성 처리 시스템에서의 사용을 위해 선호하는 발음 표기(phonetic transcription)를 식별하도록, 상기 제1 시스템 사용자와 상기 제2 시스템 사용자로부터 획득된 상기 음성 파라미터들이 발음 표기로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
  55. 제46항에 있어서, 상기 중간 음성 처리기가 상기 획득된 목소리 프린트 데이터에 기초하여 임포스터 모델(imposter model)을 업데이트 하기 위해서, 상기 제1 시스템 사용자와 상기 제2 시스템 사용자로부터 획득된 상기 음성 파라미터들이 목소리 프린트 데이터로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
  56. 제46항에 있어서, 상기 제1 연산 디바이스와 상기 제2 연산 디바이스에서 획득된 상기 음성 파라미터들을 획득된 음성에 상응하는 음향 채널 특성 또는 환경 특성으로 정의되는 것을 특징으로 하는 네트워크 환경의 음성 파라미터들을 진보시키기 위한 음성 처리 시스템.
  57. 시스템 사용자의 제1 연산 디바이스로부터 맞춤형 음성 파라미터들에 대한 요구를 수신하는 단계;
    제1 연산 디바이스와 다른 동작 특성을 갖는 제2 연산 디바이스에서의 사용을 위해서 상기 맞춤형 음성 파라미터들을 중간 음성 처리기를 사용하여 변환하는 단계; 및
    상기 맞춤형 음성 파라미터들의 변환에 대한 서비스 요금을 평가하는 단계를 포함하는 것을 특징으로 하는 분산 음성 처리 시스템에서 진보된 음성 처리 서비스들을 제공하는 방법.
  58. 제57항에 있어서, 상기 맞춤형 음성 파라미터들을 변환하는 단계는 제1 연산 디바이스에서 상기 시스템 사용자에 의해서 맞춤형 음성 파라미터들을 획득하는 단계 및 상기 맞춤형 음성 파라미터들을 상기 중간 음성 처리기로 전달하는 단계를 포함하는 것을 특징으로 하는 분산 음성 처리 시스템에서 진보된 음성 처리 서비스들을 제공하는 방법.
  59. 제57항에 있어서, 상기 변환된 맞춤형 음성 파라미터들을 사용하여 상기 제2 연산 디바이스에서 음성 처리를 실행하는 단계를 포함하는 것을 특징으로 하는 분산 음성 처리 시스템에서 진보된 음성 처리 서비스들을 제공하는 방법.
  60. 제57항에 있어서, 상기 맞춤형 음성 파라미터들을 그 후의 음성 처리를 위해 상기 제1 연산 디바이스로 전송하는 단계를 포함하는 것을 특징으로 하는 분산 음성 처리 시스템에서 진보된 음성 처리 서비스들을 제공하는 방법.
  61. 제57항에 있어서, 상기 시스템 사용자에게 상기 서비스 요금을 부과하는 단계를 포함하는 것일 특징으로 하는 분산 음성 처리 시스템에서 진보된 음성 처리 서비스들을 제공하는 방법.
  62. 제57항에 있어서, 제3자에게 상기 서비스 요금을 부과하는 단계를 포함하는 것을 특징으로 하는 분산 음성 처리 시스템에서 진보된 음성 처리 서비스들을 제공하는 방법.
  63. 제57항에 있어서, 상기 맞춤형 음성 파라미터들은 적어도 하나의 음성 인식 파라미터들, 음성 합성 파라미터들, 그리고 화자 인식 파라미터들로 정의되는 것을 특징으로 하는 분산 음성 처리 시스템에서 진보된 음성 처리 서비스들을 제공하는 방법.
KR1020057011309A 2003-02-12 2004-02-06 네트워크 환경에서 음성 처리를 위한 중간 처리기 KR20050098839A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/365,235 US7533023B2 (en) 2003-02-12 2003-02-12 Intermediary speech processor in network environments transforming customized speech parameters
US10/365,235 2003-02-12

Publications (1)

Publication Number Publication Date
KR20050098839A true KR20050098839A (ko) 2005-10-12

Family

ID=32824591

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057011309A KR20050098839A (ko) 2003-02-12 2004-02-06 네트워크 환경에서 음성 처리를 위한 중간 처리기

Country Status (5)

Country Link
US (1) US7533023B2 (ko)
EP (1) EP1593117A4 (ko)
KR (1) KR20050098839A (ko)
CN (1) CN100351899C (ko)
WO (1) WO2004072950A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100251782A1 (en) * 2007-06-29 2010-10-07 Mcmaster William J Basket Assembly For A Washing Machine

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7596370B2 (en) * 2004-12-16 2009-09-29 General Motors Corporation Management of nametags in a vehicle communications system
US7711358B2 (en) * 2004-12-16 2010-05-04 General Motors Llc Method and system for modifying nametag files for transfer between vehicles
EP1886302B1 (en) * 2005-05-31 2009-11-18 Telecom Italia S.p.A. Providing speech synthesis on user terminals over a communications network
US20060293890A1 (en) * 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US20070050188A1 (en) * 2005-08-26 2007-03-01 Avaya Technology Corp. Tone contour transformation of speech
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
JP2007286356A (ja) * 2006-04-17 2007-11-01 Funai Electric Co Ltd 電子機器
US20080228493A1 (en) * 2007-03-12 2008-09-18 Chih-Lin Hu Determining voice commands with cooperative voice recognition
US20090018826A1 (en) * 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
US8010345B2 (en) * 2007-12-18 2011-08-30 International Business Machines Corporation Providing speech recognition data to a speech enabled device when providing a new entry that is selectable via a speech recognition interface of the device
US8990087B1 (en) * 2008-09-30 2015-03-24 Amazon Technologies, Inc. Providing text to speech from digital content on an electronic device
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US20130325474A1 (en) * 2012-05-31 2013-12-05 Royce A. Levien Speech recognition adaptation systems based on adaptation data
US9495966B2 (en) * 2012-05-31 2016-11-15 Elwha Llc Speech recognition adaptation systems based on adaptation data
US20130325459A1 (en) * 2012-05-31 2013-12-05 Royce A. Levien Speech recognition adaptation systems based on adaptation data
US20130325453A1 (en) * 2012-05-31 2013-12-05 Elwha LLC, a limited liability company of the State of Delaware Methods and systems for speech adaptation data
US10431235B2 (en) * 2012-05-31 2019-10-01 Elwha Llc Methods and systems for speech adaptation data
US9899026B2 (en) 2012-05-31 2018-02-20 Elwha Llc Speech recognition adaptation systems based on adaptation data
US10395672B2 (en) * 2012-05-31 2019-08-27 Elwha Llc Methods and systems for managing adaptation data
US20130325451A1 (en) * 2012-05-31 2013-12-05 Elwha LLC, a limited liability company of the State of Delaware Methods and systems for speech adaptation data
US9620128B2 (en) * 2012-05-31 2017-04-11 Elwha Llc Speech recognition adaptation systems based on adaptation data
US9824695B2 (en) * 2012-06-18 2017-11-21 International Business Machines Corporation Enhancing comprehension in voice communications
CN103811013B (zh) * 2012-11-07 2017-05-03 中国移动通信集团公司 噪声抑制方法、装置、电子设备和通信处理方法
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US9507852B2 (en) * 2013-12-10 2016-11-29 Google Inc. Techniques for discriminative dependency parsing
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US9947313B2 (en) * 2015-01-26 2018-04-17 William Drewes Method for substantial ongoing cumulative voice recognition error reduction
CN106067302B (zh) * 2016-05-27 2019-06-25 努比亚技术有限公司 降噪装置及方法
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
CN117577099A (zh) 2017-04-20 2024-02-20 谷歌有限责任公司 设备上的多用户认证的方法、系统和介质
DE102018200088B3 (de) * 2018-01-04 2019-06-13 Volkswagen Aktiengesellschaft Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Verarbeiten einer Spracheingabe, Kraftfahrzeug und Nutzerendgerät mit einer Sprachverarbeitung
CN110110292B (zh) * 2018-01-29 2023-11-14 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110164421B (zh) * 2018-12-14 2022-03-11 腾讯科技(深圳)有限公司 语音解码方法、装置及存储介质
KR20220008401A (ko) * 2019-06-07 2022-01-21 엘지전자 주식회사 엣지 컴퓨팅 디바이스에서 음성 인식 방법
CN110751940B (zh) * 2019-09-16 2021-06-11 百度在线网络技术(北京)有限公司 一种生成语音包的方法、装置、设备和计算机存储介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5673362A (en) * 1991-11-12 1997-09-30 Fujitsu Limited Speech synthesis system in which a plurality of clients and at least one voice synthesizing server are connected to a local area network
US5899973A (en) * 1995-11-04 1999-05-04 International Business Machines Corporation Method and apparatus for adapting the language model's size in a speech recognition system
CA2217838C (en) * 1996-11-07 2003-07-29 At&T Corp. Wan-based voice gateway
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US6404872B1 (en) * 1997-09-25 2002-06-11 At&T Corp. Method and apparatus for altering a speech signal during a telephone call
US6119087A (en) * 1998-03-13 2000-09-12 Nuance Communications System architecture for and method of voice processing
US6141641A (en) * 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
US6389114B1 (en) * 1998-08-06 2002-05-14 At&T Corp. Method and apparatus for relaying communication
US6327346B1 (en) * 1998-09-01 2001-12-04 At&T Corp. Method and apparatus for setting user communication parameters based on voice identification of users
US6412011B1 (en) * 1998-09-14 2002-06-25 At&T Corp. Method and apparatus to enhance a multicast information stream in a communication network
US6385586B1 (en) * 1999-01-28 2002-05-07 International Business Machines Corporation Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices
US6411685B1 (en) * 1999-01-29 2002-06-25 Microsoft Corporation System and method for providing unified messaging to a user with a thin web browser
US6477240B1 (en) * 1999-03-31 2002-11-05 Microsoft Corporation Computer-implemented voice-based command structure for establishing outbound communication through a unified messaging system
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6463413B1 (en) * 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
US6456975B1 (en) * 2000-01-13 2002-09-24 Microsoft Corporation Automated centralized updating of speech recognition systems
JP5105682B2 (ja) * 2000-02-25 2012-12-26 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 基準変換手段を伴なう音声認識装置
US6510413B1 (en) * 2000-06-29 2003-01-21 Intel Corporation Distributed synthetic speech generation
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6823306B2 (en) * 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
US7024359B2 (en) * 2001-01-31 2006-04-04 Qualcomm Incorporated Distributed voice recognition system using acoustic feature vector modification
US20020138274A1 (en) * 2001-03-26 2002-09-26 Sharma Sangita R. Server based adaption of acoustic models for client-based speech systems
CN1223984C (zh) * 2001-06-19 2005-10-19 英特尔公司 基于客户机-服务器的分布式语音识别系统
JP3885523B2 (ja) * 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
CN1409527A (zh) * 2001-09-13 2003-04-09 松下电器产业株式会社 终端器、服务器及语音辨识方法
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US7072834B2 (en) * 2002-04-05 2006-07-04 Intel Corporation Adapting to adverse acoustic environment in speech processing using playback training data

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100251782A1 (en) * 2007-06-29 2010-10-07 Mcmaster William J Basket Assembly For A Washing Machine
US9394642B2 (en) * 2007-06-29 2016-07-19 Basf Se Basket assembly for a washing machine

Also Published As

Publication number Publication date
WO2004072950A3 (en) 2004-10-28
US20040158457A1 (en) 2004-08-12
CN100351899C (zh) 2007-11-28
US7533023B2 (en) 2009-05-12
CN1748249A (zh) 2006-03-15
EP1593117A2 (en) 2005-11-09
EP1593117A4 (en) 2006-06-14
WO2004072950A2 (en) 2004-08-26

Similar Documents

Publication Publication Date Title
US7533023B2 (en) Intermediary speech processor in network environments transforming customized speech parameters
AU2016216737B2 (en) Voice Authentication and Speech Recognition System
US11138974B2 (en) Privacy mode based on speaker identifier
US10027662B1 (en) Dynamic user authentication
US11594215B2 (en) Contextual voice user interface
US20160372116A1 (en) Voice authentication and speech recognition system and method
O’Shaughnessy Automatic speech recognition: History, methods and challenges
KR100924399B1 (ko) 음성 인식 장치 및 음성 인식 방법
EP1171871B1 (en) Recognition engines with complementary language models
US10163436B1 (en) Training a speech processing system using spoken utterances
US7813927B2 (en) Method and apparatus for training a text independent speaker recognition system using speech data with text labels
CN109313892B (zh) 稳健的语言识别方法和系统
US20030069729A1 (en) Method of assessing degree of acoustic confusability, and system therefor
US11335324B2 (en) Synthesized data augmentation using voice conversion and speech recognition models
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
JP2004037721A (ja) 音声応答システム、音声応答プログラム及びそのための記憶媒体
US10854196B1 (en) Functional prerequisites and acknowledgments
CN113168438A (zh) 用户认证方法和设备
Chollet et al. Towards fully automatic speech processing techniques for interactive voice servers
Drygajlo Man-machine voice enabled interfaces
KR20220064871A (ko) 전자 장치 및 그의 제어 방법
KR20200114606A (ko) 음성을 제공하는 방법 및 장치
Cheng Design and Implementation of Three-tier Distributed VoiceXML-based Speech System
Van der Walt An investigation into the practical implementation of speech recognition for data capturing
JP2002189493A (ja) 音声認識方法及びその装置、ならびに音声制御装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid