KR100759473B1 - 출력 음성 신호의 프리젠테이션 동안 입력 음성 신호를 처리하는 방법 및 장치 - Google Patents

출력 음성 신호의 프리젠테이션 동안 입력 음성 신호를 처리하는 방법 및 장치 Download PDF

Info

Publication number
KR100759473B1
KR100759473B1 KR1020027004392A KR20027004392A KR100759473B1 KR 100759473 B1 KR100759473 B1 KR 100759473B1 KR 1020027004392 A KR1020027004392 A KR 1020027004392A KR 20027004392 A KR20027004392 A KR 20027004392A KR 100759473 B1 KR100759473 B1 KR 100759473B1
Authority
KR
South Korea
Prior art keywords
signal
subscriber unit
output
speech signal
input
Prior art date
Application number
KR1020027004392A
Other languages
English (en)
Other versions
KR20020071850A (ko
Inventor
에이. 저슨.이라
Original Assignee
요모빌, 아이엔씨.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 요모빌, 아이엔씨. filed Critical 요모빌, 아이엔씨.
Publication of KR20020071850A publication Critical patent/KR20020071850A/ko
Application granted granted Critical
Publication of KR100759473B1 publication Critical patent/KR100759473B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2207/00Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place
    • H04M2207/18Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place wireless networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/002Applications of echo suppressors or cancellers in telephonic connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

입력 음성 신호의 개시는 출력 음성 신호의 리프젠테이션 동안 검출되고 출력 음성 신호에 대한 입력 개시 시간이 결정된다(701). 다음, 입력 개시 시간은 입력 음성 신호에 응답하기 위해 이용되도록 제공되어 있다(704). 입력음성신호가 출력 음성 신호의 리프리젠테션 동안 검출되는 경우, 출력 음성 신호의 식별이 입력 음성 신호에 응답하기 위해 제공된다. 데이터 및/또는 제어신호가 제공된 적어도 컨텐츄럴 정보, 즉, 입력 개시 시간 및/또는 음성 출력 신호의 식별에 응답하여 제공된다. 본 발명은 통신 시스템의 지연 특성에 관계없이 출력 음성신호에 대한 입력 음성신호의 콘텍스트를 정확히 설정한다.
무선통신시스템

Description

출력 음성 신호의 프리젠테이션 동안 입력 음성 신호를 처리하는 방법 및 장치{METHOD AND APPARATUS FOR PROCESSING AN INPUT SPEECH SIGNAL DURING PRESENTATION OF AN OUTPUT AUDIO SIGNAL}
본 발명은 음성인식을 포함하는 통신 시스템에 관한 것이고, 특히, 출력 음성 신호의 프리젠테이션(presentation) 중 입력 음성 신호의 "바지 인(barge in)처리 방법 및 장치에 관한 것이다.
음성 인식 시스템은 특히 전화 시스템과 관련하여 본 기술분야에 통상적으로 공지되어 있다. 미국특허 제 4,914,692; 5,475,791; 5,708,704 및 5, 765, 130호는 음성 인식 시스템을 포함하는 예시적인 전화망을 개시하고 있다. 이러한 시스템의 공통적인 특징은 음성 인식 소자(즉, 음성인식을 수행하는 장치 또는 장치들)가 가입자의 통신 장치(즉, 유저의 전화)에 위치한 것과는 달리, 전화망의 구성 내의 중앙에 일반적으로 위치되어 있다. 음성 합성과 음성 인식 소자의 결합은 전화망 또는 인프러스트럭쳐내에서 전개된다. 호출자가 이 시스템을 경유하여 시스템을 액세스할수 있고 호출자에게 합성 또는 기록 음성의 형태의 정보 프롬프트 또는 질의(query)가 마련될 수 있다. 호출자는 일반적으로 구술 응답을 합성 음성에 제공하고 이 음성 인식 소자는 호출자의 구술 응답을 처리하여 호출자에게 서어비스를 제공한다.
인간 특성 및 어느 음성 합성/인식 시스템의 설계가 주어지기 때문에, 호출자가 제공한 구술 응답은 출력 오디오 신호의 프리젠테이션, 예를 들어 합성된 음성 프롬프트 중에 통상 발생한다. 이러한 발생의 처리를 흔히 "바지 인(barge-in)"처리 라고 한다. 미국특허 제 4,914,692; 5,155,760; 5,475,791;5,708,704; 및 5,765,130호 모두는 바지 인 처리의 기술을 개재하고 있다. 일반적으로, 각각의 이들 특허에 설명된 기술은 바지 인 처리 중 에코 제거의 필요성을 설명한다. 즉, 합성된 음성 프롬프트(즉, 출력 오디오 신호)의 프리젠테이션 중, 음성인식 시스템은 음성 인식 분석을 효과적으로 수행하기 위해 유저(즉, 입력 음성신호)에 의해 제공된 어떤 구술 응답에 존재하는 프롬프트로부터의 잔류 인공물을 고려해야 한다. 따라서, 이들 선행기술은 바지인 처리중 입력 음성 신호의 품질이 영향을 받는다. 음성 전화 시스템에서 발견된 매우 작은 레이턴시(latency) 또는 딜레이로 인해, 이들 선행기술은 바지 인 처리의 콘텍스트 결정 양상, 즉 입력 음성신호를 특정의 출력 음성 신호 또는 출력 음성 신호내의 특정 순간에 상관시키는 것에 관계하지 않는다.
선행기술의 이 결함은 무선시스템인 경우 더 심각히 나타난다. 선행기술의 실질적인 본체가 전화를 기반으로 한 음성 인식 시스템에 대하여 존재할 지라도, 무선통신 시스템으로의 음성인식 시스템의 협체는 상당히 새로운 개발이다. 무선 통신 환경에서 음성 인식의 응용을 표준화하는 노력의 일환으로, 유럽 전기 통신 표준 협회(ETSI)가 소위 Aurora Project로 최근 작업을 시작했다. Aurora Project의 목적은 분류된 음성 인식 시스템의 글로벌 표준을 규정하는 것이다. 일반적으로, Aurora Project 는 특성 추출 또는 파라미터화 와같은 정면단 음성 인식 처리 가 가입자 유닛(예를들어, 셀룰러폰과 같은 휴대용 무선 통신 장치)내에서 수행되는 클라이언트-서버 장치를 설정하는 것을 제안하고 있다. 다음, 정면단에 의해 제공된 데이터는 서버에 운반되어 후단 음성 인식 처리를 수행한다.
Aurora Project가 제안한 클라이언트-서버 장치는 분류된 음성 인식 시스템의 필요성을 적절히 설명할 것이라고 예측되었다. Aurora Project는 바지인 처리를 어떠케 설명해야할지 현재로서는 불확실하다. 이것은 무선 시스템에서 일반적으로 직면하는 레이턴시의 폭넓은 변화가 주어지고 이러한 레이턴시가 바지인 처리시 나타낼 수 있는 효과에 특히 관련이 있다. 예를 들어, 유저의 음성을 토대로 한 응답의 처리는 이 응답이 음성 인식 프로세서에 의해 수신되는 시간의 특정 점을 기반으로 부분적으로 이루어지는 것이 일반적이다. 즉, 유저의 응답이 소정의 합성된 프롬프트의 특정 부분 동안 받아들여 질지 여부 또는 수신된 응답을 프롬프트하는 동안 일련의 디스크리크 프롬프트가 제공될지여부가 차이를 만들수 있다. 간단히 말해, 유저 응답의 콘텍스트는 유저 응답의 유익한 정보를 인지하는 많 큼 중요하다. 그러나, 어떤 무선 시스템의 불확실한 지연 특성은 이러한 콘텍스트를 적절히 결정하는데 방해로서 나타난다. 따라서, 특히, 패킷 데이터 통신을 활용하는 것과 같은 불확실 및/또는 광범위하게 변화하는 지연 특성을 가진 시스템에서 출력 음성신호의 프리젠테이션 동안 입력 음성 신호의 콘텍스트를 결정하는 기술을 제공하는 것이 바람직할 수 있다.
본 발명은 출력 음성 신호의 프리젠테이션 동안 입력 음성 신호를 처리하는 기술을 제공하는 것이다. 원칙적으로 무선 통신 시스템에 이용할수 있지만, 본 발명의 기술은 불확실 및/또는 광범위하게 변하는 지연특성을 가진 통신 시스템, 예를들어 인터넷과 같은 포킷 데이터 시스템에 이용하도 유익할수 있다. 본발명의 일시시예에 의하면, 입력 음성 신호의 개시가 출력 음성 신호의 프리젠테이션 동안 검출되고 이 출력 음성 신호에 대한 입력 개시 시간이 결정된다. 입력 개시 시간은 다음 입력 음성 신호에 대한 응답에 이용되도록 제공된다. 또 다른 실시예에서, 출력 음성 신호는 상응하는 식별을 갖는다. 입력 음성 신호가 출력 음성 신호의 프리젠테이션 동안 검출되면, 출력 음성 신호의 식별은 입력 음성 신호에 응답하기 위해 제공된다. 데이터 및/또는 제어신호를 포함하는 정보 신호는 제공된 콘텐츄럴 정보, 즉, 입력 개시 시간 및/또는 출력 음성 신호의 식별에 응답하여 제공된다. 이 방식에서, 본 발명은 통신시스템의 지연 특성에 관계 없이 출력 음성 신호에 대한 입력 음성 신호의 콘텍스트를 정확히 설정하는 기술을 제공한다.
도 1은 본 발명에 의한 무선 통신 시스템의 블록도.
도 2는 본 발명에 의한 가입자 유닛의 블록도.
도 3은 본 발명에 의한 가입자유닛 내의 음성 및 데이터 처리 기능의 개략도.
도 4는 본 발명에 의한 음성 인식 서버의 블록도.
도 5는 본 발명에 의한 음성 인식 서버내의 음성 및 데이터처리 기능의 개략도.
도6은 본 발명에 의한 콘텍스트 결정의 도면.
도 7은 본 발명에 의한 출력 음성 신호의 프리젠테이션 동안의 입력 음성 신호를 처리하는 방법을 도시한 흐름도.
도 8은 본 발명에 의한 출력 음성 신호의 프리젠테이션동안 입력 음성 신호를 처리하는 또 다른 방법을 도시한 흐름도.
도 9는 본 발명에 의한 음성 인식 서버내에서 수행될수 있는 방법을 도시한 흐름도.
도 1내지 9를 참조하면서 본발명을 상세히 설명한다. 도 1은 가입자 유닛(102, 103)을 포함하는 무선 통신 시스템(100)의 전체 시스템의 구성을 예시한다. 가입자 유닛(102-103)은 무선 시스템(110)에 의해 지원되는 무선 채널(105)을 경유하여 인프라스트락쳐와 통신한다. 본 발명의 인프라스트락쳐는 작은 앤티티 시스템(120), 컨텐트 제공 시스템(130) 및 데이터망(150)을 경유하여 함께 연결된 엔터플라이즈 시스템(140)을 포함한다.
가입자 유닛은 통신 인트라스트락쳐와 통신할 수 있는 휴대 전화기로서의 가입자 유닛(103) 또는 차량(102)에 있는 무선 통신 장치와 같은 무선 통신 장치를 포함한다. 주지해야 할것은 도 1에 도시된 가입자 유닛 외에 여러 가입자 유닛이 사용될수 있다는 것이다. 즉, 본 발명은 이에 관하여 제한되지 않는다. 이들 가입자 유닛(102-103)은 핸즈 프리 음성 통신용 핸즈 프리 셀룰러 폰, 지역 음성 인식 및 합성 시스템 및 클라이언트-서버 음성 인식 및 합성 시스템의 클라이언트 부분의 소자를 포함하는 것이 바람직하다. 이들 소자는 도 2 및 도 3을 참고로 하면서 상세히 후술 되어 있다. 가입자 유닛(102-103)은 무선 채널(105)을 경유하여 무선시스템(110)과 무선으로 통신한다. 본 발명이 다른 형태의 무선 시스템 지원 음성 통신에 응용되는 것이 유리하다고 당업자가 인지할지라도, 무선 시스템(110)은 셀룰러 시스템을 포함하는 것이 바람직하다.
무선채널(105)은 디지털 전송기술을 실행하고, 또한 가입자 유닛(102-103)으로의, 또한 가입자 유닛(102-103)으로부터의 음성 및 데이터를 전송하는 것이 가능한 무선 주파수(RF) 캐리어이다. 주지해야 할 것은 아날로그 기술과 같은 기타 전송기술이 이용된다는 것이다. 바람직한 실시예에서, 무선채널(105)은 유럽 전기 통신 표준협회(ETSI)가 규정한 일반 포킷 데이터 무선 서비스(GPRS)와 같은 무선 포킷 데이터 채널이다. 무선채널(105)은 클라이언트-서버 음성 인식 및 합성 시스템의 클라이언트 부분과 클라이언트-서버 음성 인식 및 합성 시스템의 서버 부분 사이의 통신을 촉진하게 하기 위해 데이터를 전송한다. 디스플레이(display), 제어(control), 위치(location) 또는 상태 정보(status information)와 같은 기타의 정보가 무선 채널(105)을 통해 전송된다.
무선 시스템(100)은 무선채널(105)에 의해 가입자 유닛(102-103)으로부터 운반된 전송을 수신하는 안테나(112)를 포함한다. 이 안테나(112)는 또한 무선 채널(105)를 경유하여 가입자 유닛(102-103)에 전송한다. 안테나(112)를 경유하여 수신된 데이터는 데이터 신호로 변환되어 무선망(113)에 전송된다. 이와는 반대로, 무선망(113)의 데이터는 전송을 위해 안테나(112)에 전송된다. 본발명의 내용에 있어서, 무선망(113)은 선행기술에 공지되어 있듯이, 기지국, 콘트롤러, 리소스 알로케이터(resource allocator), 인터패이스, 데이터베이스등과 같은 무선 시스템을 운영하기 위해 필요한 장치를 포함한다. 당업자가 알수 있듯이, 무선망(113)에 포함된 특정 소자는 이용되는 특정 형태의 무선 시스템(110), 예를들어, 셀룰러 시스템, 중계 육상 이동 차량(trunked land-mobile system)에 의존한다.
클라이언트-서버 음성 인식 및 합성 시스템의 서버부분을 제공하는 음성 인식 서버(115)는 무선망(113)에 연결됨으로써 무선 시스템(110)의 오퍼레이터에 의해 음성 이용 서어비스가 가입자 유닛(102-103)의 유저에게 제공된다. 제어 앤티티(116)는 무선망(113)에 또한 연결되어 있다. 제어 앤티티(116)를 이용하여 음성 인식 서버(115)가 제공한 입력에 응답하여 제어신호를 가입자 유닛(102-103)에 전달하여 가입자 유닛 또는 이 가입자 유닛에 상호 연결된 장치를 제어한다. 도시되어 있듯이, 적절히 프로그램된 범용 컴퓨터를 포함하는 제어 앤티티(116)는 상호연결의 점선으로 도시되어 있듯이, 무선망(113)을 통해 또는 직접적으로 음성 인식 서버(115)에 연결되어 있다.
상술했듯이, 본 발명의 인프라스트락쳐는 데이터망(150)을 경유하여 함께 연결된 여러 시스템(110, 120, 130, 140)을 포함할 수 있다. 다른 방법으로, 혹은, 추가하여, 무선 시스템(110)의 적절한 데이터망(150)은 공지된 네트워크 기술을 이용한 사설 데이터 네트워크, 인터넷과 같은 공공 네트워크 또는 이들의 결합을 포함할 수 있다. 무선 시스템(110) 내의 음성 인식 서버(115) 대안 및 이외에, 원격 음성 인식 서버(123, 143, 145)가 여러 방식으로 데이터망(150)에 연결되어 음성을 기반으로 한 서어비스를 가입자유닛(102-103)에 제공한다. 제공시, 원격 음성 인식 서버는 데이터망(150) 및 어떤 중계 통신 경로를 통해 제어 엔티티(116)와 유사하게 통신할 수 있다.
(소형 사무실 또는 가정)과 같은 소형 앤티티 시스템(120)내의 데스크탑 퍼스널 컴퓨터 또는 기타 범용 처리 장치와 같은 컴퓨터(122)를 이용하여 음성 인식서버(123)를 수행한다. 가입자(102-103)의 데이터는 무선시스템(110)과 데이터망(150)을 통해 컴퓨터(122)에 루트 된다. 저장된 알고리즘과 프로세스를 실행하여 컴퓨터(122)는 바람직한 실시 예에서 음성 인식 시스템과 음성 합성 시스템 모두의 서버 부분을 포함하는 음성 인식 서버(123)의 기능을 제공한다. 예를 들어, 컴퓨터(122)가 유저의 퍼스널 컴퓨터인 경우, 이 컴퓨터의 음성 인식 서버 소프트웨어가 유저의 이메일(email), 전화번호부, 카렌더 또는 기타 정보와 같은 컴퓨터에 있는 유저의 개인정보에 연결될 수 있다. 이러한 구성을 이용함으로써, 가입자 유닛의 유저가 음성을 기반으로 한 인터패이스를 이용하는 퍼스널 컴퓨터상의 개인정보에 액세스한다. 본발명에 의한 클라이언트-서버 음성 인식 및 음성 합성 시스템의 클라이언트 부분을 도 2 및 도3을 참고로 하면서 설명한다. 본발명에 의한 클라이언트--서버 음성 인식 및 음성 합성시스템의 서버부분은 도 4 및 도 5와 관련하여 설명된다.
대안적으로, 가입자유닛의 유저가 이용할 수 있게 하는 정보를 가진 컨텐트 제공 시스템(130)은 음성인식 서버(132)를 데이터망에 연결할 수 있다. 특정 또는 특별한 서비스로 제공되면, 음성 인식 서버(132)는 음성 기반 인터패이스를 컨테트 제공 시스템의 정보(도시하지 않음)로 액세스하기를 원하는 가입자유닛의 유저에게 제공한다. 음성인식 서버에 대한 또 다른 위치는 대기업 또는 유사한 앤티티와 같은 엔터플라이즈 시스템(140)내에 있다. 인터넷과 같은 엔터플라이즈 시스템의 내부망(146)은 보안 게이트웨이(142)를 경유하여 데이터망(150)에 연결되어 있다. 이 보안 게이트웨이(142)는 가입자 유닛과 관련하여 엔터플라이즈의 내부망(146)으로의 안전한 엑세스를 제공한다. 당 기술분야에 공지되어 있듯이, 이 방식으로 제공된 보안 액세스는 부분적으로는, 식별 및 암호 기술에 의존한다. 이 방식에서, 보안이 해제된 데이터 망(150)을 경유한 가입자 유닛과 내부망(146)사이의 보안 통신이 제공된다. 엔터플라이즈 시스템(140)내에, 음성 인식 서버(145)를 실행하는 서버 소프트웨어가 소정의 피고용인 워크스테이션과 같은 퍼스널 컴퓨터(144)에 제공될 수 있다. 소형 앤티티 시스템에 이용되는 상술한 구성과 유사하게, 워커스테이션 방법에 의해 피고용인이 작업 관련 정보 또는 기타 정보를 음성을 기반으로 한 인터패이스를 통해 액세스하게 된다. 또한, 컨텐트 서버로서의 컨텐트 제공 시스템(130)모델과 유사한 엔터플라이즈시스템(140)은 엔터플라이즈 데이터 베이스에 대한 액세스를 제공하기 위해 내부 이용가능한 음성 인식 서버(143)를 제공할 수 있다.
본 발명의 음성 인식 서버가 어디에 설치되었건 간에 관계없이, 여러 음성을 기반으로 한 서어비스를 실행하는데 이용될 수 있다. 예를 들어, 제어 앤티티(116)와 관련한 작동이 제공되는 경우에, 음성 인식 서버는 가입자 유닛에 연결된 가입자 유닛 또는 장치의 구동 작동제어를 서비스한다. 주지해야 할 것은 이 설명에 전반적으로 사용된 음성 인식 서버라는 용어는 물론 음성합성 기능을 포함하는 것을 의미한다.
본 발명의 인프라스트락쳐는 가입자 유닛 유닛(102-103)과 일반 전화시스템사이의 상호접속을 제공한다. 무선망(113)을 POTS(plain old telephone system)망(118)에 연결한 것으로 이것이 도 1에 도시되어 있다. 선행기술에 공지되어 있듯이, POTS망(118) 또는 이와 유사한 전화망은 수화기 또는 기타 무선장치와 같은 다수의 호출국에 통신 액세스를 제공한다. 이 방식에서, 가입자 유닛(103-103)의 유저는 호출국(119)의 다른 유저와 음성통신을 전송할 수 있다.
도 2는 본 발명에 의한 가입자 유닛을 실행하는데 이용되는 하드웨어의 구조를 도시한다. 도시되어 있듯이, 두개의 무선 송수신기, 즉, 무선 데이터 송수신기(203) 및 무선 음성 송수신기(204)가 이용된다. 당 기술분야에 공지되어 있듯이, 이들 송수신기는 데이터와 음성 기능을 모두 수행할 수 있는 단일 송수신기에 결합 되어 있다. 무선 데이터 송수신기(203)와 무선 음성 송수신기(204)는 모두 안테나(205)에 연결되어 있다. 대안적으로, 각각의 송수신기에 대한 각각의 안테나가 이용될 수 있다. 무선 음성 송수신기(204)는 무선음성 통신을 제공하기 위해 필요한 모든 신호 처리, 프로토콜 종단, 변조/복조등을 수행한다. 유사한 방식으로, 무선 테이터 송수신기(203)는 인트라스트락쳐와의 데이터 접속을 제공한다. 바람직한 실시예에서, 무선 데이터 송수신기(203)는 유럽 전기 통신 표준 협회(ETSI)가 규정한 일반 포킷 데이터 무선 서비스(GPRS)와 같은 무선 포킷 데이터를 지원한다.
본발명은 후술되어 있듯이, 특정한 장점으로 차량 내부 시스템에 이용될 수 있다는 것을 알 수 있다. 차량 내부에 이용되는 경우, 본발명에 의한 가입자는 가입자 유닛의 부분이 아니라, 차량의 부분으로 일반적으로 간주되는 처리 소자를 포함한다. 본발명을 설명하는 목적을 위해, 이러한 처리 소자는 가입자 유닛이라고 했다. 주지해야 할 것은, 가입자 유닛의 실질적 수행이 디자인의 고려에서 지적되었듯이, 이러한 처리 소자를 포함하거나 포함하지 않을 수 있다. 바람직한 실시예에서, 처리 소자는 IBM사의 "POWER PC"와 같은 범용 프로세서(CPU)(201), Motorola사의 DSP56300 시리즈 프로세서와 같은 디지털 신호 프로세서(DSP)(202)를 포함한다. CPU(201)와 DSP(202)는 선행기술에 공지되어 있듯이, 데이터 및 어드레스 버스는 물론, 기타 제어 접속을 경유하여 함께 연결되는 것을 도시하기 위해 도 2에서 접속된 방식으로 도시되어 있다. 또 다른 실시예는 CPU(201)와 DSP(202)모두에 대한 기능을 단일 프로세스에 결합할수 있거나 이들을 여러 프로세스로 분할 할 수 있다. CPU(201)와 DSP(202)의 모두는 각각의 메모리(240)와 (241)에 연결되어 있으며, 이들 메모리는 관련된 프로세서에 대해 프로그램과 데이터 저장을 제공한다. 기억된 소프트웨어 루틴을 사용하여, CPU(201) 및/또는 DSP(202)는 본발명의 기능성의 부분을 적어도 수행하기 위해 프로그램될 수 있다. CPU(201) 및 DSP(202)의 소프트웨어 기능도 도 3 및 도 7과 관련하여 아래에서 적어도 부분적으로 설명되어 있다.
바람직한 실시 예에서, 가입자 유닛은 또한 안테나(207)에 연결된 GSP수신기(206)를 포함한다. 이 GSP수신기(206)는 수신된 GPS정보를 제공하기 위해 DSP(202)에 연결되어 있다. DSP(202)는 GPS(206)로부터 정보를 받아들여 무선통신장치의 위치좌표를 산출한다. 또한, GPS(206)는 위치정보를 CPU(201)에 직접적으로 제공한다.
CPU(201) 및 DSP(202)의 여러 입력 및 출력이 도 2에 도시되어 있다. 도 2에 도시되어 있듯이, 짙은 실선은 음성관련 정보에 해당하고 짙은 점선은 제어/데이터 관련 정보에 해당한다. 임의 소자와 신호 통로는 점선을 이용하여 나타내었다. DSP(202)는 마이크로폰(270)으로부터 마이크로폰 오디오 입력(220)을 받아들이고 이 마이크로폰은 전화(셀룰러폰) 대화용 입력과 음성입력을 지역 음성 인식기와 클라이언트-서버 음성인식기의 클라이언트측의 부분 모두에 제공한다(상세히 후술됨). DSP(202)는 전화(셀룰러폰)대화 용 음성 출력과 지역 음성 합성기 및 클라이언트-서버 음성 합성기로부터의 음성출력을 제공하는 하나이상이 스피커(271)에 향하는 스피커 오디오 출력(211)에 연결된다. 마이크로폰 (270) 및 스피커(271)는 휴대용 장치에서처럼 함께 근접 위치해 있거나 마이크로폰 장착 바이저 및 스피커 데쉬 또는 도어를 갖는 자동차 응용에서처럼, 서로에 대해 매우 가깝게 위치될 수 있다.
본 발명의 일실시예에서, CPU(201)는 양 방향성 인터패이스(230)를 통해 차량 내부 데이터 버스(208)에 연결되어있다. 이 데이터 버스(208)에 의해 제어 및 상대 정보가 셀룰러폰, 엔터테인먼트 시스템, 기상 제어 시스템등 차량내의 여러 장치(209a-n)와 CPU(201)사이에 연결된다. 적절한 데이터 버스(208)는 자동차 엔지니어 협회에 의해 현재 표준화 되고 있는 ITS Data BUS(IDB)가 될것이라고 기대한다. 여러 장치 사이에 제어 및 상태 정보를 통신하게 하는 대안 적인 수단은 Bluetooth Special Interest Group(SIG)가 규정하고 있는 숏트 레인지 무선 데이터 통신 시스템이 이용될 수 있다.
데이터 버스(208)에 의해 CPU(201)가 지역 음성 인식기 또는 클라이언트 서버 음성 인식기중 둘 중 어느하나에 의해 인식된 음성명령에 응답하여 차량 데이터 버스 상의 장치(209)를 제어한다.
CPU(201)는 수신 데이터 접속(231)과 송신 데이터 접속(232)을 경유하여 무선 데이터 송수신기(203)에 연결되어 있다. 이들 접속(231-232)에 의해 CPU(201)가 무선 시스템(110)으로부터 전달된 제어 정보와 음성 합성 정보를 수신한다. 이 음성 합성 정보는 무선 데이터 채널(105)을 경유해 클라이언트-서버 음성 합성 시스템의 서버부분으로부터 수신된다. CPU(201)는 음성합성정보를 디코드 한 다음, DSP(202)에 전달된다. 다음, DSP(202)는 출력 음성을 합성하고 이를 스피커 오디오 출력(211)에 전달한다. 수신 데이터 접속(231)을 경유하여 수신된 어떤 제어 정보는 가입자 유닛의 작동 자체를 제어하는 데 이용되거나 이러한 작동을 제어하기 위해 하나이상의 장치에 전달하는데 이용된다. 또한, CPU(201)는 상태 정보, 클라이언트-서버 음성 인식 시스템의 클라이언트 부분으로부터의 출력을 무선시스템(110)에 전달할 수 있다. 클라이언트-서버 음성 인식 시스템의 클라이언트 부분은 후술 되어 있듯이, DSP(202)와 CPU(201)의 소프트웨어에서 실행되는 것이 바람직하다. 음성인식을 지원하는 경우, DSP(202)는 마이크로폰 오디오 입력(220)으로부터 음성을 수신하고 이 음성을 처리하여 파라미터화한 음성신호를 CPU(201)에 제공한다. CPU(201)는 파라미터화한 음성신호를 엔코드하여 이 정보를 무선 데이터 채널(105)을 거쳐서 인프라스트락쳐의 음성 인식 서버에 전달되는 송신 데이터 접속(232)을 개재하여 무선 데이터 송수신기(203)에 전달한다.
무선 음성 송수신기(204)는 양방향 데이터 버스(233)를 통해 CPU(201)에 연결되어 있다. 이 정보에 의해 CPU(201)는 무선 음성 송수신기의 작동을 제어하고 무선 음성 송수신기(204)로부터 상태정보를 수신한다. 이 무선 음성 송수신기(204)는 송신 음성 접속(221)과 수신 음성 접속(210)을 경우하여 DSP(202)에 연결되어 있다. 무선 음성 송수신기(204)가 전화(셀룰러)호출을 하는데 이용되는 경우, 음성은 DSP(202)에 의해 마이크로폰 오디오 입력(220)으로부터 수신된다. 이 마이크로폰 음성은 처리되어(예를들어, 여과, 압축등), 무선 음성 송수신기(204)에 제공되어 셀룰러 인프라스트럭쳐에 전달된다. 이와는 반대로, 무선 음성 송수신기(204)에 의해 수신된 음성이 수신 음성 접속(210)을 통하여 DSP(202)에 전달되어 여기서 이 음성은 처리되어 (예를 들어, 압축해제, 여과등)스피커 오디오 출력(211)에 제공된다. DSP(202)로 실행된 처리가 도3과 관련하여 상세히 설명될 것이다.
도 2에 도시된 가입자 유닛은 음성 통신 동안 인터럽트 인디케이터(251)를 수동으로 제공하는데 이용되는 입력 장치(250)를 임의적으로 포함한다. 즉, 음성 대화 중, 가입자 유닛의 유저는 인터럽트 인디케이터를 제공하기 위해 입력 장치를 통전시키므로써 유저의 웨이크업(weak up) 요구를 시그널링 한다. 예를들어, 음성 통신 동안, 가입자 유닛의 유저는 음성 기반 명령을 전자 보조기에게 제공하기 위해 대화를 중단하기를 원한다, 즉, 전화를 끊어 제 3자와 전화통화하기를 원한다. 입력장치(250)는 사실 유저 구동 입력 메카니즘의 형태를 포함하는데, 이의 특별한 예는 단일 또는 다목적 버톤, 다중 위치 셀렉터 또는 입력 수용능력을 가진 메뉴 구동 디스플레이를 포함한다. 또한, 입력장치(250)는 양방향 인터패이스(230)와 차량 내부 데이터 버스(208)를 경유하여 CPU(201)에 연결되어 있다. 이러한 입력장치(250)가 제공될 때, CPU(201)는 인터럽트 인디케이터의 발생을 확인하기 위한 검출기 역할을 한다. CPU(201)가 입력장치(250)용 검출기 역할을 하는 경우, CPU(201)는 참조번호(260)으로 표시된 신호 경로에 의해 나타나 있듯이, 인터럽트 인디케이터의 존재를 DSP(202)에 표시한다. 이와는 달리, 또 다른 실행은 인터럽트 인디케이터를 제공하기 위해 검출기 어플리케이션에 연결된 지역 음성 인식기(이는 DSP(202) 및/또는 CPU(201)내에서 수행되는 것이 바람직)를 이용한다. 그 경우에, CPU(201) 또는 DSP(202)는 참조번호(260a)로 표시한 신호 경로에 나타나 있듯이, 인터럽트 인디케이터의 존재를 시그널한다. 여하튼, 인터럽트 인디케이트의 존재가 검출될때 마다, 음성 인식 소자의 부분(바람직하기로는 가입자 유닛의 부분과 관련하여 수행되는 클라이언트 부분)이 시동 되어 프로세싱 음성을 기반으로 한 명령을 시작한다. 부가적으로, 음성 인식 소자의 부분이 시동 된 표시가 또한 유저와 음성 인식 서버에 제공된다. 바람직한 실시예에서, 이러한 표시는 송신 데이터 접속으로서의 음성인식 서버(132)를 경유하여 무선 테이터 송수신기(203)에 전송되어 음성 인식 소자를 제공하기 위해 음성 인식 클라이언트와 협동하는 음성 인식 서버에 전송한다.
마지막으로, 가입자 유닛에는 입력 인식 기능이 인터럽트 인디케이터에 응답하여 시동하는 어넌시에이터 제어(256)에 응답하여 표시를 가입자의 사용자에게 제공하는 어넌시에이터가 장비되어 있다. 어넌시에이터(255)는 인터럽트 인디케이터의 검출에 응답하여 시동 되며, 제한된 듀레이션 톤 또는 비프(duration tone or beep)(다시, 인터럽트 인디케이터의 존재는 입력 장치를 기반으로 한 신호(260) 또는 음성을 기반으로 한 신호(260a)중 어느 하나를 이용하여 신호화될 수 있다)와 같은 음성 표시를 제공하기 위해 이용되는 스피커를 포함할 수 있다. 또 다른 실행에 있어서, 어넌시에이터의 기능이 음성을 스피커 오디오 출력(211)에 안내하는 DSP(202)에 의해 실행되는 소프트웨어 프로그램을 경유하여 제공된다. 스피커는 스피커 오디오 출력(211)을 오디오 가능하게 하는데 이용되는 스피커(271)와 분리되거나 동일할 수 있다. 대안적으로, 어넌시에이터(255)는 비쥬얼 인디케이트를 제공하는 LED 또는 LCD디스플레이와 같은 디스플레이 장치를 포함한다. 어넌시에이터(255)의 특정한 형태는 디자인 선택의 문제이고 본발명은 이로써 제한할 필요는 없다. 더구나, 어넌시에이터(255)는 양방향 인터패이스(230) 및 차량 내부의 데이터 버스(208)를 경유하여 CPU(201)에 연결되어 있다.
도 3을 다시 참고 하면, (본발명에 따라 작동하는)가입자 유닛내에서 수행되는 프로세싱의 부분이 대략적으로 도시되어 있다. 바람직하기로는, 도 3에 도시된 프로세싱은 CPU(201) 및/ 또는 DSP(202)에 의해 실행되는 저장된 기계적으로 판독가능한 지시를 이용하여 수행된다. 아래에 제시된 내용은 자동차량내에 설치된 가입자 유닛의 작동을 설명한다. 그러나, 도 3에 일반적으로 도시되고 본명세서에 설명된 기능은 음성인식을 이용하거나 이 음성인식의 이용으로 이익이 있는 차량이 아닌 응용에 마찬가지로 응용할 수 있다.
마이크로폰 오디오 입력(220)이 입력으로 가입자 유닛에 제공된다. 자동차 환경에 있어서, 마이크로폰은 차량의 바이저 또는 스티어링 칼럼(steering column)에 또는 부근에 일반적으로 장착된 핸즈 프리 마이크로폰일 수 있다. 바람직하기로는, 마이크로폰 오디오 입력(220)은 디지털 방식으로 에코 제거 및 환경 프로세싱(ECEP)블록(301)에 도달한다. 스피커 오디오 출력(211)은 필요한 처리를 받은 후에 ECEP블록(301)에 의해 스피커(들)에 전달된다. 차량에서, 이러한 스피커는 데쉬보드 아래에 설치될 수 있다. 대안적으로, 스피커 오디오 출력(211)은 엔터테이먼트 시스템의 스피커 시스템을 통해 플레이 된 차량 내의 엔터테이먼트 시스템을 통해 루트될 수 있다. 스피커 오디오 출력(211)은 디지털 포멧형식인 것이 바람직하다. 예를 들어, 셀룰러폰 호출이 진행중인 경우, 셀룰러폰으로부터 수신된 오디오는 수신 오디오 접속(210)을 경유하여 ECEP블록(301)에 도달한다. 마찬가지로, 송신 오디오가 송신 오디오 접속(221)을 거쳐 셀룰러폰에 전달된다.
ECEP블록(301)은 송신 전 마이크로폰 오디오 입력(220)으로부터의 스피커 오디오 출력(211)의 에코 제거를 무선 음성 송수신기(204)에 제공한다. 에코 제거의 이 형태는 음향 에코 제거로 알려져 있고 당 기술분야에 공지되어 있다. 예를 들어, Amano의 "Sub-band Acoustic Echo Canceller"이라는 제목의 미국 특허 제 5,136,599호와 Gneter의 "Echo Canceler with Subband Attenuation and Noise Injection Control"은 음향 에코 제거를 수행하는 기술을 개재하고 있으며 이는 본발명의 명세서에 참고로 포함되어 있다.
ECEP블록(301)은 또한 에코 제거 외에 매우 즐거운 음성 신호를 가입자유닛에 의해 전송된 오디오를 수신하는 당사자에 제공하도록 주변 프로세싱을 마이크로폰 오디오 입력(220)에 제공한다. 일반적으로 이용되는 하나의 기술을 잡음억제라고 한다. 차량의 핸즈 프리 마이크로폰은 다른 당사자가 들을 수 있는 많은 형태의 잡음을 일반적으로 픽업한다. 이 기술은 다른 당사자가 들을 수 있는 배경잡음을 감소시킨다. 이러한 기술은 예를 들어 Vilmur의 미국특허 제 4,811,404호에 개재되어 있으며 이를 본명세서에 참고로 포함되어 있다.
또한, ECEP블록(301)은 제 1 음성 경로(316)를 경유하여 음성 합성 후단(304)에 의해 제공된 합성된 음성의 에코 제거 프로세싱을 제공하는데, 이 합성된 음성은 스피커 오디오 출력(211)을 통하여 스피커(들)에 전달되도록 되어 있다. 스피커(들)에 루트된 수신된 음성의 경우에서 처럼, 마이크로폰 오디오 입력(220)에 도달하는 스피커 음성 "에코"가 제거된다. 이에 의해, 마이크로폰에 음향적으로 연결된 스피커가 음성 인식 정면단(302)에 전달되기 전에 마이크로폰 오디오로부터 제거된다. 이 형태의 프로세싱은 "바지 인"으로 기술상 공지된 것을 가능케 한다. "바지 인"에 의해 음성 인식 시스템이 입력 음성에 응답하면서, 출력신호가 이 시스템에 의해 동시에 발생된다. "바지 인"실행의 예가 미국특허 제 4,914,692; 5,475,791; 5,708,704; 5,765,130호에 기재되어 있다.
바지 인 처리에 대한 본발명의 응용이 아래에 상세히 설명되어 있다.
에코가 제거된 마이크로폰 오디오는 음성 인식 프로세싱이 처리될때 마다 제 2 음성 경로(326)를 통해 음성 인식 정면단(302)에 공급된다. 임의 적으로, ECEP블록(301)은 배경잡음 정보를 제 1 데이터 통로(327)를 경유하여 음성 인식 정면단(302)에 제공한다. 이 배경잡음 정보가 잡음이 있는 환경에서 작동하는 음성 인식 시스템에 대한 인식 성능을 향상시키는데 이용된다. 이러한 프로세싱을 수행하는 적절한 기술이 Gerson의 미국특허 제 4,918,732호에 개재되어 있고 이를 참고로 본 명세서에 포함되어 있다.
에코 제거 마이크로폰 오디오 및 임의로, ECEP블록(301)으로부터 수신된 배경잡음 정보를 기반으로, 음성 인식 정면단(302)은 파라미터화한 음성정보를 발생한다. 음성 인식 정면단(302)과 음성 합성 후단(304)은 클라이언트-서버를 기반으로한 음성 인식 및 합성 시스템의 클라이언트 측부분의 코어 기능을 제공한다. 파라미터화한 음성 정보는 일반적으로 특정 벡터 형태이고 이 벡터에 있어서, 새로운 벡터는 10-20msec마다 산출된다. 음성신호의 파라미터화의 일반적으로 이용되는 기술은 음향 신호 처리,ASSP-28(4), pp 357-366, Aug.1980의 IEEE규정의 "Comparasion Of Parametric Representations For Monosyllablic Word Recognition In Continuously Spoken Sentences"라는 제목으로 Davis에 의해 설명되어 있다.
음성 인식 정면단(302)에 의해 산출된 파라미터 벡터는 지역 음성 인식 처리를 위해 제 2 데이터 경로(325)를 경유하여 지역 음성 인식기(303)에 통과된다. 파라미터 벡터는 또한 제 3 데이터 경로(325)를 통하여 음성 어플리케이션 프로토콜 인터패이스(API)와 데이터 프로토콜을 포함하는 프로토콜 처리 블록(306)에 임의적으로 통과된다. 공지된 기술에 따라, 프로토콜 처리 블록(306)은 송신 데이터 접속(232)을 통하여 파라미터 벡터를 무선 데이터 송수신기(203)에 전달한다. 다음, 무선 데이터 송수신기(203)는 클라이언트-서버를 기반으로 한 음성 인식기의 부분으로 기능하는 서버에 파라미터 벡터를 전송한다. (주지해야 할것은, 가입자 유닛은 파라미터 벡터를 송신하기 보다 대신 무선 데이터 송수신기(203) 또는 무선 음성 송수신기(204)중 하나를 이용하여 음성 정보를 서버에 전달할 수 있다는 것이다). 이것은 가입자 유닛으로부터 전화망으로의 음성의 송신을 지원하는데 이용되는 것과 유사한 방식으로 이루어지거나, 음성 신호의 기타의 적절한 리프리젠테이션을 이용하여 이루어 진다. 즉, 음성 정보는 여러 파라미터화되지 않은 리프리젠테이션을 포함할 수 있다. 즉, 러 디지털 오디오(raw digitized audio), 셀룰러 음성 코더에 의해 처리된 오디오, IP(인터넷 프로토콜)와 같은 고유 프로토콜에 따라 전송에 적합한 오디오 데이터에 의해 처리된다. 다음, 서버는 파라미터화하지 않은 음성신호를 수신할 때 필요한 파라미터화를 수행할 수 있다. 단일 음성 인식 정면단(302)이 도시되어 있을지라도, 지역 음성 인식기(303)와 클라이언트-서버를 기반으로 한 음성 인식기는 사실상 상이한 음성 인식 정면단을 활용한다.
지역 음성 인식기(303)는 음성 인식 정면단(302)으로부터 파라미터 벡터(325)를 수신하여, 여기서, 음성 인식 분석을 행하여 예를 들어, 파라미터화 한 음성내에 인식 가능한 발성이 있는지 여부를 결정한다. 일실시예에서, 인지된 발성(일반적으로, 워드)은 지역 음성 인식기(303)로부터 제 4데이터 경로(324)를 경유하여 프로토콜 처리블록(306)으로 전달된 다음, 또 다른 처리를 위해 여러 어플리케이션(307)에 대해 인식된 발성을 통과시킨다. CPU (201)와 DSP(202)중 하나 또는 모두를 이용하여 수행되는 어플리케이션(307)은 인지된 발성을 기반으로 음성을 기반으로 한 인터럽트 인디케이터가 수신되었다는 것을 확인하는 검출기 어플리케이션을 포함할 수 있다. 예를 들어, 검출기는 인지된 발성을 동일성을 조사하는 소정의 발성(웨이크 업(weak up))의 리스트에 대해 인지된 발성을 비교한다. 동일성이 검출되는 경우, 검출기 어플리케이션은 인터럽트 인디케이터의 존재를 표시하는 신호(260a)를 발생시킨다. 다음, 인터럽트 인디케이터의 존재를 이용하여 음성 인식 소자의 부분을 시동하여 음성을 기반으로 한 명령을 처리하기 시작한다. 이것은 음성 인식 정면단에 공급된 신호(260a)에 의해 도 3에 개략적으로 도시되어 있다. 응답시, 음성 인식 정면단(302)은 파라미터된 오디오를 지역 음성 인식기에 또는 바람직하기로는 프로토콜 처리 블록(306)에 루팅하는 것을 지속하게 하여 부가적인 처리를 위해 음성 인식 서버에 송신한다. (또한, 주지해야 할것은 입력장치(250)에 의해 임의로 제공된 입력 장치를 기반으로 한 신호(260)가 동일한 기능을 제공한다). 부가적으로, 인터럽트 인디케이터의 존재는 송신 데이터 접속(232)에 전달하여 음성 인식기의 인프라스트락쳐를 기반으로 한 소자를 경보 한다.
음성 합성 후단(304)은 음성의 입력 파라미터 프리젠텐이션을 받아들여 이 파라미터 프리젠텐이션을 음성 신호로 변환한 다음 제 1 음성 경로(316)를 통하여 ECEP 블록(301)에 전달된다. 이용되는 특정한 파라미터 리프리젠테이션이 디자인 선택의 고려의 문제이다. 일반적으로 이용되는 하나의 파라미터 프리젠텐이션은 포멧 파라미터로 Kalt의 "Software For A Cascade/Parallel Formant Synthesizer"이라는 제목의 Journal of the Acoustical Socity of America, Vol. 67, 1980,pp 971-995에 기재되어 있다. 또 다른 선형 예측 파라미터가 Markel의 Linear Prediction of Speech, Springer Verlag, New York, 1976에 개시되어 있듯이, 또 다른 일반적으로 이용되는 파라미터 리프리젠테이션이다. Katt 및 Markel 공개의 각각의 기재를 참고로 본 명세서에 포함되어 있다.
클라이언트-서버를 기반으로 한 음성 합성의 경우에, 음성의 파라미터 리프리젠텐이션이 무선채널(105), 무선 데이터 송수신기(203) 및 프로토콜 처리 블록(306)을 개재하여 네트워크로 부터 수신되어 제 5데이터 경로(313)를 개재하여 음성 합성 후단에 전달된다. 지역음성합성의 경우, 어플리케이션(307)은 구술될 텍스트 스트링을 발생할 것이다. 이 텍스트 스트링은 프로토콜 처리 블록(306)을 통해 제 6 데이터 경로(314)를 개재하여 지역 음성 합성기(305)에 통과하게 된다. 이 지역 음성 합성기(305)는 테스트 스티링을 음성신호의 파라미터 프리젠테이션으로 변환하여 이 파라미 프리젠테이션을 제 6 데이터 경로(315)를 개재하여 음성 합성 후단(304)에 통과시켜 음성신호를 변환시킨다.
주지해야 할것은, 수신 데이터 접속(231), 음성 합성 정보 외의 기타 수신된 정보를 송신하기 위해 이용될 수 있다는 것이다. 예를들어, 기타 수신된 정보는 (디스플레이 정보와 같은) 데이터 및/또는 인프라스트락쳐로부터 수신된 제어 정보 및 시스템으로 다운로드될 코드를 포함한다. 마찬가지로, 송신 데이터 접속(232)은 음성 인식 정면단(302)에 의해 산출된 파라미터 벡터외의 다른 송신 정보를 송신하는데 이용된다. 예를들어, 다른 송신 정보는 장치 상태 정보, 디바이스 케퍼블리티(device capabilities) 및 바지 인 타이밍과 관련한 정보를 포함한다.
다시, 도 4를 참조하면, 본 발명에 의한 클라이언트-서버 음성 인식 및 합성 시스템의 서버 부분을 제공하는 음성인식 서버의 하드웨어 실시 예가 도시되어 있다. 이 서버는 도 1에 대하여 상술했듯이, 여러 환경에서 존재할 수 있다. 가입자 유닛 또는 제어 엔티티와의 데이터 통신은 인프라스트락쳐 또는 망접속(411)을 통해 가능하게 된다. 이 접속(411)은 예를 들어, 무선시스템에 로컬(local)하게되거나 도 1에 도시되어 있듯이, 무선망에 직접 연결되어 있다. 대안적으로, 이 접속(411)은 공공 또는 사설 데이터 네트워크, 또는 기타 데이터 통신 링크일 수 있고 본 발명은 이에 제한되지 않는다.
망 인터패이스(405)는 CPU(401)와 망 접속(411) 사이에 접속을 제공한다. 망인터패이스(405)는 망접속(411)으로부터 수신 통로(408)를 개재하여 CPU(401) 그리고 CPU(401)로부터 송신 통로(410)를 개재하여 망접속(411)에 데이터를 루트 한다. 클라이언트-서버 배열의 부분으로, CPU(401)는 망인터패이스(405)와 망 접속(411)을 개재하여(가입자 유닛에서 바람직하게 수행되는)하나이상의 클라이언트와 통신하다. 바람직한 실시예에서, CPU(401)는 클라이언트-서버 음성 인식 및 합성 시스템의 서버부분을 수행한다. 도시되어 있지는 않지만, 도 4에 도시된 서버는 서버로의 로컬 액세스를 허여하는 로컬 인터패이스를 포함함으로써 예를들어, 서버 유지보수, 상태 점검 및 기타 유사한 정보를 실행한다.
메모리(403)는 클라이언트-서버 배열의 서버부분을 실행하는데 CPU(401)에의해 실행 및 사용을 위해 기계적으로 판독가능한 지시(소프트웨어)를 기억한다. 이 소프트웨어의 오퍼레이션 및 구조는 도5를 참고로하여 더 설명되어 있다.
도 5는 음성 인식 및 합성 서버기능의 실행을 도시한다.
하나 이상의 음성 인식 클라이언트와 협체하는 도 5에 도시된 음성 인식 서버 기능은 음성 인식 소자를 제공한다. 가입자유닛으로부터의 데이터는 수신 경로(408)를 경유하여 수신기(RX)에 도달하다. 수신기는 데이터를 디코드하고 음성 인식 데이터(503)를 음성 인식 클라이언트로부터 음성 인식 분석기(504)에 루투한다. 장치 상태 정보, 장치 캐퍼블리티 및 바지인 콘텍스트에 관련된 정보와 같은 가입자유닛으로부터의 나머지 정보(506)가 수신기(502)에 의해 지역 제어 프로세서(508)에 루트된다. 하나의 실시예에서, 다른 정보(506)는 음성인식 소자의 부분(예를 들어, 음성인식 클라이언트)이 시동하는 가입자 유닛으로부터의 표시를 포함한다. 이러한 표시를 이용하여 음성 인식 서버에서 음성인식 처리를 시작한다.
클라이언트-서버 음성 인식 배열의 부분으로서 음성 인식 분석기(504)는 가입자유닛으로부터 음성인식 파라미터를 받아들여 인식처리를 완성한다. 인식된 워드 또는 발성(507)은 다음 지역 제어 프로세서(508)에 통과된다. 파라미터 벡터를 인지된 발성으로 변환하는데 필요한 프로세싱의 설명은 Lee의 "Automatic Speech Recognition: The Development of the Sphinx 1988" 에서 발견된다. 이의 내용을 참고로 본명세서 내에 포함했다. 상술했듯이, 또한, 주지해야 할것은, 가입자 유닛으로부터의 수신 파라미터 벡터라기보다, 서버(즉, 음성 인식 분석기(504))는 파라미터화되지 않은 음성 정보를 수신한다. 다시, 음성 정보는 상술했듯이, 어떤 다수의 형태를 받아들일 수 있다. 이 경우에, 음성 인식 분석기(504)는 예를들어, 먼저 멜 셉스트라(mel cepstra)기술을 이용하여 음성 정보를 파라미터화 한다. 이 파라미터 벡터가 상술했듯이, 인식된 발성으로 변환된다.
지역 제어 프로세서(508)는 음성 인식 분석기(504)로부터의 인식된 발성(507)과 기타 정보를 수신한다. 일반적으로, 본 발명은 인식된 발성을 오퍼레이트하는데 제어 프로세서를 필요로 하고 이 인식된 발성을 기반으로 제어신호를 제공한다. 바람직한 실시예에서, 이들 제어신호를 이용하여 가입자유닛의 오퍼레이션 또는 가입자 유닛에 연결된 하나 이상의 장치를 연속적으로 제어한다. 이를 위해, 로컬 제어 프로세스는 두 개의 방식 중 하나의 방식으로 작동하는 것이 바람직하다. 첫째, 지역 제어 프로세서(508)는 어플리케이션 프로그램을 수행할 수 있다. 전형적인 어플리케이션의 일예는 미국특허 제 5, 652, 789에 설명했듯이, 전자 보조품이다. 대안적으로, 이러한 어플리케이션은 원격 제어 프로세서(516)를 원격적으로 제어한다. 예를 들어, 도 1의 시스템에 있어서, 원격 제어 프로세서는 제어 앤티티(116)를 포함할 수 있다. 이 경우에, 지역 제어 프로세서(508)는 데이터 망 접속(515)을 경유하여 원격 제어 프로세서(516)와 통신함으로써 데이터를 통과하고 받아들이는 게이트웨이와 같이 작동한다. 데이터망 접속(515)은 공공(예를들어, 인터넷), 사설(예를들어, 인트라넷) 또는 어떤 기타 테이터 통신 링크일 수 있다. 지역 제어 프로세서(508)는 유저가 이용하는 어플리케이션/서비스에 의존하는 데이터망에 존재하는 여러 원격 제어 프로세서와 통신한다. 원격제어 프로세서(516) 또는 지역 제어 프로세서(508) 중 하나를 작동하는 어플리케이션 프로그램은 인식된 발성(507) 및/또는 기타 정보(506)에 대한 응답을 결정한다. 바람직하기로는, 이 응답은 합성된 메세지 및/또는 제어 신호를 포함한다. 제어신호(513)는 지역 제어 프로세서(508)로부터 송신기(TX)(510)까지 지연된다. 합성될 정보(514), 일반적으로 텍스트 정보는 지역 제어 프로세서(508)로부터 텍스트 투 음성 분석기(512)로 전달된다. 텍스트 투 음성 분석기(text-to speech analyzer)(512)는 입력 텍스트 스티링을 파라매틱 음성 래프리젠테이션으로 변환한다. 이러한 변환을 수행하는 적절한 기술은 Sproat(editor), "Multilingual Text-To-Speech Synthesis: The Bell Labs Approach:, 1997에 설명되어 있다. 이를 참고로 본명세서에 포함했다. 텍스트 투 음성 분석기(512)로부터의 파파미터 음성 래프리젠테이션(511)은 가입자 유닛에 전송하기 위한 송신 경로(410)에 걸쳐 피라메틱 래프리젠테이션(511)과 제어 정보(513)을 필요에 따라 멀티플렉스하는 송신기(510)에 제공된다. 막 설명한 동일한 방식으로 작동하는 또한 텍스트 투 음성 분석기(512)를 이용하여 가입자 유닛에서 출력 음성 신호로 플레이 될 합성 프롬프트등을 제공한다.
본 발명에 의한 콘텍스트 결정은 도 6에 도시되어 있다. 도 6에 도시된 활성도에 대한 기준점은 가입자유닛의 기준점이다. 도 6은 가입자 유닛에 및 가입자 유닛으로부터의 음성신호의 시간진행을 도시한다. 특히, 출력 음성 신호(601)의 시간 진행이 도시되어 있다. 출력 음성 신호(601)가 출력 사일런스(silence)(604a)의 제 1주기에 의해 분리된 선행 출력 음성 신호(602)에 의해 진행된 다음, 출력 사일런스(604b)의 제 2주기에 의해 분리된 연속 출력 음성 신호(603)가 추종한다. 출력 음성 신호(601)는 음성신호, 합성 음성 신호 또는 프롬프트, 오디오 톤 또는 비프등과 같은 음성신호를 포함한다. 본발명의 일실시예에서, 각각의 출력 음성 신호(601-603)는 어떤 신호가 소정의 순간에 출력했는지를 확인하는데 도움을 주기위해 이 활당된 관련된 유일한 식별자를 갖는다. 이러한 식별자는 비실시간에는 여러 출력 음성 신호(예를 들어, 합성된 프롬프트, 톤등)에 미리 활당되거나 실시간에 만들어 지거나 활당된다. 식별자 자체는 대역내 또는 대역외 시그널링을 사용하여 출력 오디오 신호를 제공하는데 이용되는 정보와 함께 전송될 수 있다. 대안적으로, 미리 활당 된 식별자의 경우에 있어서, 식별자 자체는 가입자 유닛에 활당되고 이 식별자를 기반으로, 가입자유닛은 출력 오디오 신호를 합성할 수 있다. 당업자는 출력 음성 신호에 대하여 식별자를 제공하여 이용하는 여러 기술이 용이하게 고안되고 본 발명에 적용될수 있다는 것을 알수 있을 것이다.
도시되어 있듯이, 입력 출력 신호(605)는 출력 음성 신호(601)의 프리젠테이션에 대한 시간에서 어떤 점에서 상승한다. 이는, 예를 들어, 출력음성신호(601-603)가 일련의 합성된 음성 프롬프트이고 입력 음성 신호(605)가 음성 프롬프트 중 어느 하나에 대한 유저 응답인 경우이다. 마찬가지로, 출력 음성 신호는 가입자 유닛에 연결된 음성신호가 비합성될 수 있다. 어째던, 입력 음성신호가 검출되고 입력 개시 시간(608)이 입력 음성 신호(605)의 개시를 기억하도록 설정된다. 입력 음성 신호의 개시를 결정하는 데에 여러 기술이 있다. 하나의 이러한 방법이 미국특허 제 4,821, 325호에 개시되어 있다. 입력 음성 신호의 개시를 결정하는데 이용되는 방법은 1/20초보다 양호한 분해를 가진 개시를 식별할 수 있는 것이 바람직하다. 입력음성의 개시는 두 개의 연속하는 출력 개시 시간(607, 610)사이에서 어느때라도 검출될 수 있어서 입력 음성 신호가 출력 음성 신호에 대하여 검출되는 정확한 점을 나타내는 간격(609)을 발생한다. 따라서, 입력 음성 신호의 개시는 (출력 음성 신호가 제공되지 않는 경우)출력 음성 신호를 추종하는 사일런스 기간을 임으로 포함하는 출력 음성 신호의 프리젠테이션 동안 어떤 점에서도 유효하게 검출될 수 있다. 출력 오디오 신호의 종단을 추종하는 임의의 길이의 타임 아웃 기간(611)을 이용하여 출력 음성 신호의 프리젠테이션의 끝을 구분한다. 이 방식으로, 입력 음성 신호의 개시는 각각의 출력 음성 신호와 관련될 수 있다. 주지해야 할 것은 유효 검출 기간을 설정하는 다른 프로토콜이 설정될 수 있다는 것이다. 예를 들어, 일련의 출력 프롬프트가 서로 모두 관계하는 경우, 유효검출기간이 일련의 프롬프트에 대한 제 1 출력 개시에서 시작하여 일련의 최종 프롬프트후의 타임 아웃 기간에서 종료되거나 이 일련의 최종 프롬프트를 바로 추종하는 출력 음성 신호에 대한 제 1 출력 개시점에서 종료된다.
입력 개시시간을 검출하는데 이용되는 동일한 방법이 출력개시 시간(607, 610)을 설정하는데 이용된다. 이 것은 특히, 출력음성신호가 인프라스트락쳐로부터 직접 제공된 음성신호인 경우이다. 출력음성신호가 합성 프롬프트 또는 기타 합성된 출력이 경우, 후술되었듯이, 출력 개시 기간은 클럭 사이클, 샘플 바운더리 또는 프레임 바운더리를 이용하여 직접적으로 확인된다. 출력 음성 신호는 입력 음성 신호가 처리될 수 있는 콘텍스트를 설정한다.
상술했듯이, 각각의 출력 음성 신호가 이와 관련하여 식별을 갖으므로써, 출력 음성 신호 사이의 미분을 제공한다. 입력 음성신호가 출력 음성 신호의 콘텍스트에 대하여 시작할 때를 결정하는 대안으로, 입력 음성 신호의 콘텍스트를 설명하는 수단으로만 출력 음성신호의 식별을 사용할 수 있다. 이것은 예를들어, 입력 음성 신호가 출력 음성 신호에 대하여 시작하고 입력 음성 신호가 출력 음성 신호의 프리젠테이션 동안 어느 시간에서만 시작하는 정확한 시간을 아는 것이 중요하지 않은 경우이다. 또한, 주지해야 할 것은 이러한 출력 음성 신호 식별이 입력 음성 개시 시간의 결정과 관련하여 이 개시시간의 배제에 반대로서 이용될 수 있다는 것이다.
입력 개시 시간 및/또는 출력 음성 신호 식별이 이용되는 것과 무관하게, 본발명은 불확실한 지연 특성을 갖는 정확한 콘텍스트 결정을 하게 한다. 상술한 콘텍스트 결정기술을 수행하고 이용하는 방법이 도 7 및 도 8을 참고로해서 예시되어 있다.
도 7은 출력 음성 신호의 프리젠테이션 동안 입력 음성 신호를 처리하는 가입자 유닛내에서 바람직하게 수행되는 방법을 도시한다. 예를들어, 도 7에 도시된 방법은 도 2에 도시된 CPU(201) 및/또는 DSP(202)와 같은 적절한 플렛폼에 의해 실행되는 저장된 소프트웨어 루틴 및 알고리즘을 사용하여 수행되는 것이 바람직하다. 주지해야 할것은 네트워크된 컴퓨터와 같은 기타 장치가 도 7에 도시된 단계를 수행하는데 이용될수 있고 도 7에 도시된 어느 또는 모든 단계는 게이트 어레이와 상용화한 집적회로와 같은 특정 하드웨어 장치를 사용하여 수행될 수 있다는 것이다.
출력 음성 신호의 프리젠테이션 동안, 입력 음성 신호의 개시가 검출되었는지를 단계(701)에서 연속적으로 결정된다. 다시, 음성 신호의 개시를 결정하는 여러 기술이 당기술분야에서 공지되어 있고 디자인 선택의 문제로 본발명에 의해 동등하게 이용된다. 바람직한 실시예에서, 입력 음성 신호의 개시를 검출하는 유효 기간은 출력 음성 신호를 개시하자 마자 시작되고 다음 출력 음성 신호의 개시에 또는 현재 출력 음성 신호의 결론시에 시작한 타임 아웃 타이머의 만기에서 종료된다. 입력 음성 신호의 개시가 검출될때, 출력 음성 신호에 의해 설정된 콘텍스트에 대한 입력 개시시간이 단계(702)에서 결정된다. 입력 개시 시간을 결정하는 여러 기술이 이용될 수 있다. 일실시예에서, (센서 또는 클럭 사이클과 같은 어떤 편의 시간 베이스을 이용하여)CPU(201)에 의해 실시간 기준이 유지됨으로써 순간적인 콘텍스트를 설정한다. 이 경우에, 입력 개시 시간은 출력 음성 신호의 콘텍스트에 대한 타임 스탬프(time stamp)로 나타낸다. 다른 실시예에서, 음성신호는 샘플 바이 샘플(sample by sample)를 기반으로 재 구축 및/또는 엔코드된다. 예를들어, 8kHz 음성 샘플링 속도을 이용하는 시스템에서, 각각의 음성 샘플은 음성 입력 또는 출력의 125마이크로초에 해당할 것이다. 따라서, 어떤 시간점(즉, 입력 개시 시간)이 출력 음성 신호(샘플 콘텍스트)의 개시 샘플에 대한 음성 샘플의 인텍스로 표현될수 있다. 이 경우에, 입력 개시 시간은 출력 음성 신호의 제 1샘플에 대한 샘플 인덱스로 나타난다. 또 다른 실시예에서, 음성 신호는 프레임 바이 프레임(frame by frame)을 기반으로 재구축된다. 각각의 프레임은 샘플 기간을 승산한다. 이 방법에서, 출력 음성 신호는 프레임 콘텍스트를 설정하고 입력 개시 시간은 프레임 콘텍스트내의 프레임 인덱스로 표현된다. 프레임 개시사간이 어떠게 표현되든 간에, 입력 개시시간은, 입력 음성 신호가 출력 음성 신호에 대하여 시작할 때를 정확히 여러 정도의 해상도로 기억한다.
적어도 입력 음성 신호의 개시의 검출로부터, 입력 음성 신호가 임으적으로 분석되어 단계(702)에 나타나 있듯이 파라미터화한 음성신호를 제공한다. 음성신호의 파라미터화에 대한 고유 기술이 도 3에 상술 되었다. 단계(704)에서, 적어도 입력 개시 시간이 입력 음성 신호에 대한 응답을 위해 제공된다. 도 7의 방법이 무선 가입자 유닛내에서 수행되는 경우, 이 단계는 인식/합성 서버에 대한 입력 개시 시간의 무선 송신을 포함한다.
마지막으로, 단계(705)에서, 정보신호가 적어도 입력 개시 시간에 응답하여 임으로 수신되고 제공되는 경우 파라미터화한 음성신호에 응답하여 수신된다. 본 발명의 내용에서, 이러한"정보신호"는 가입자 유닛이 작동할 수 있는 데이터 신호를 포함한다. 예를들어, 이러한 데이터신호는 유저 디스플레이를 발생하는 디스플레이 데이터 또는 가입자 유닛이 자동적으로 다이얼 하는 전화번호를 포함할 수 있다. 다른 예는 당업자에 의해 용이하게 식별가능하다. 본 발명의 "정보신호"는 가입자 유닛 또는 이 가입자 유닛에 연결된 어떤 장치의 작동을 제어하는데 이용되는 제어신호를 포함한다. 예를들어, 제어신호는 가입자 유닛에게 위치 데이터 또는 상태 갱신을 지시할 수 있다. 다시 당업자는 여러 형태의 제어 신호를 디바이스할 수 있다. 음성 인식 서버를 이용하여 이러한 정보신호를 제공하는 방법은 도 9를 참조하여 더 설명되어 있다. 그러나, 입력 음성 신호를 처리하는 또 다른 실시예는 도 8을 참조하여 더 설명되어 있다.
도 8의 방법은, 도 2에 도시된 CPU 및/또는 DSP(202)와 같은 적절한 플렛폼에 의해 실행되는 기억된 소프트웨어 루틴 및 알고리즘을 이용하여 가입자 유닛 내에서 실행되는 것이 바람직하다. 네트워크 된 컴퓨터와 같은 다른 장치를 이용할 수 있어서 도 8에 도시된 단계들을 수행하고 도 8에 도시된 어느 또는 모두는 게이트 어웨이 또는 상용화한 집적회로와 같은 특정의 하드웨어 장치를 이용하여 수행될 수 있다.
출력 음성 신호의 프리젠테이션 동안, 입력 음성 신호가 검출되었는지를 단계(801)에서 연속적으로 결정된다. 음성 신호의 존재를 결정하는 여러기술이 당 기술분야에 공지되어 있고 디자인의 선택의 문제로 본발명에 의해 동등하게 이용될 수 있다. 주지해야 할것은 도 8에 도시된 기술은, 이러한 결정이 입력 음성 신호의 존재를 검출하는 단계에 포함될지라도, 입력 음성신호의 개시를 겸출하는 것과는 특별히 관계하지 않는다는 것이다.
단계(802)에서, 출력 음성 신호에 대응하는 식별이 결정된다. 도 6과 관련하여 상술했듯이, 식별은 출력 음성신호와 분리되거나 협체될 수 있다. 가장 중요한 것은, 출력 음성 신호 식별이 출력 음성 신호와 다른 모든 출력 음성신호를 유일하게 구별하여야 한다. 합성된 프롬프트등의 경우에, 이것은 각각의 이러한 합성된 프롬프트를 단일 코드에 할당함으로써 성취될 수 있다. 실시간 음성의 경우, 인프라스트락쳐를 기반으로한 타임 스탬프와 같은 비 반복 코드가 이용될 수 있다. 식별이 어떠한 방법으로 표현되는 간에 관계없이, 가입자유닛이 이를 확인활 수 있어야 한다.
단계(803)는 단계(703)과 동일하여 더 설명할 필요가 없다. 단계(804)에서, 입력 음성 신호에 응답하기 위해 식별이 제공된다. 도 8의 방법이 무선 가입자 유닛 내에서 실행될 때, 이 단계는 음성 인식/합성 서버에 대한 식별의 무선 전송을 포함한다. 단계(705)와 실질적으로 동일한 방법으로, 가입자 유닛은 단계(805)의 인프라스트락쳐로부터 적어도 이 식별을 기반으로 정보신호를 수신할 수 있다.
도 9는 음성 인식 서버를 이용한 정보신호를 제공하는 방법을 도시한다. 도 9에 도시된 방법은 도 4 및 도 5에 도시된 CPU(401) 및/또는 원격 제어 프로세서(516)와 같은 적절한 프롬프트 또는 프롬프트들에 의해 실행되는 기억된 소프트웨어 루틴 및 알고리즘을 이용하여 수행되는 것이 바람직하다.
다시, 다른 소프트웨어 및/또는 하드웨어를 기반으로한 실행이 디자인 선택의 내용으로 가능하다.
단계(901)에서, 음성 인식 서버에 의해 출력음성 신호가 가입자유닛에 제공된다. 이는 예를 들어, 제어신호를, 가입자유닛으로 하여금 유일하게 식별된 음성 프롬프트 또는 일련의 프롬프트를 합성하게 지시하는 가입자유닛에 제공함으로써 성취될 수 있다. 대안적으로, 텍스트 투 음성 분석기(512)에 의해 제공된 파라미터 음성 리프리젠텐이션은 음성 인식의 연속 구축을 위해 가입자 유닛에 전달될 수 있다. 본발명의 일실시예에서, 실시간 음성 신호는 음성 인식 서버가(음성 인식 서버의 개입 또는 없이) 존재하는 인트라스트락쳐에 의해 제공된다. 이것은 예를들어, 가입자 유닛이 인프라스트락쳐를 경유하여 또 다른 당사자와 음성통신에서 연결된 경우이다. 가입자유닛에서 출력 음성 신호를 야기하기 위해 사용되는 기술에 관계없이, 상술한 형태의 콘텍스트 정보(입력 개시 시간 및/또는 출력 음성 신호 식별자)가 단계(902)에서 수신된다.
단계(903)에서, 컨텐츄얼 신호에 적어도 기반으로, 가입자 장치에 전달될 제어 신호 및/또는 데이터 신호를 포함하는 정보신호가 결정된다. 다시, 도 5를 참조하면, 이것은 지역 제어 프로세서(508) 및/또는 원격 제어 프로세서(516)에 의해 성취되는 것이 바람직하다. 최소한으로, 컨텍츄얼 정보를 이용하여 출력 음성 신호에 대한 입력 음성신호에 대해 콘텍스트를 설정한다. 이 콘텍스트는 입력 음성 신호가 간격을 결정하는데 이용되는 출력 음성 신호에 응답하는 지를 결정하는데 이용된다. 특정 출력 음성 신호에 대응하는 특정 식별자를 이용하여 엠비큐어티(ambiguity)는 어떤 특정 출력 음성 신호가 입력 음성 신호에 대해 콘텍스트를 설정하는 것이 가능한 콘텍스트를 설정한다. 예를 들어, 인 유저가 전화번호부의 어떤 사람에게 호출하려고 하는 경우일 것이다. 이 시스템은 음성 출력을 경유하여 호출하기 여러 가능한 사람의 이름을 제공한다. 유저는 "호출"과 같은 명령을 이용하여 출력 음성을 인터럽트할 수 있다. 이 시스템은 식별자 또는 입력 개시 시간을 기반으로, 유저가 인터럽트하는 경우, 어느 이름이 출력되고 있는 가를 결정하고 그 이름과 관련된 전화번호에 호출한다. 더구나, 콘텍스트를 설정 한 파라미터화한 음성신호가 인식된 발성을 제공하기 위해 분석될수 있다. 다음, 입력 음성 신호에 어떤 사람이 응답해야 되는 경우, 인식 발성을 이용하여 제어신호 또는 데이터 신호를 확인한다. 제어 또는 데이터 신호가 단계(903)에서 결정되는 경우, 이들은 단계(904)에서 컨텐츄얼 정보의 소오스에 제공된다.
본 발명은 상술했듯이, 출력 음성 신호의 프리젠테이션 동안 입력음성 신호를 처리하는 고유의 기술을 제공한다. 입력 음성 신호에 대한 적절한 콘텍스트가 입력 개시 시간 및/또는 출력 음성 신호 식별자의 이용에 의해 설정된다. 이 방법에서, 가입자 유닛에 전달된 정보신호는 입력 음성 신호에 적절히 응답하는 것이 확실히 제공된다. 상술된 것은 본 발명의 원리의 응용의 예시에 불과하다. 또다른 구성과 방법이 본 발명의 정신에서 벗어나지 않으며 당업자에 의해 실행될 수 있다.

Claims (55)

  1. 입력 음성 신호의 개시를 결정하는 단계와;
    출력 음성 신호에 대하여 입력 음성 신호의개시의 입력 개시 시간을 결정하는 단계와;
    입력 음성 신호에 응답하는데 사용하는 입력 개시 시간을 제공하는 단계를 구비하는 출력 음성 신호를 리프리젠테이션 동안 입력 음성 신호를 처리하는 방법에 있어서,
    상기 입력 개시 시간은 출력 음성 신호의 일시적 콘텍스트에 대한 타임 스탬프, 출력 음성 신호의 샘플 콘텍스트에 대한 샘플 인덱스 및 출력 음성 신호의 프레임 콘텍스트에 대한 프레임 인텍스 중 어느 하나를 포함하는 것을 특징으로 하는 입력 음성 신호를 처리하는 방법.
  2. 삭제
  3. 청구항1에 인용된 단계를 수행하는 컴퓨터 실행가능한 명령을 가지는 컴퓨터 판독 가능한 매체.
  4. 출력 음성 신호의 리프리젠테이션동안 입력 음성 신호를 처리하는 방법에 있어서,
    입력 음성 신호를 검출하는 단계와;
    출력 음성 신호에 대응하는 식별을 결정하는 단계와;
    입력 음성 신호에 응답하는데 사용하는 식별을 제공하는 단계를 구비한 것을 특징으로 하는 입력 음성 신호 처리 방법.
  5. 청구항 4에 인용된 단계를 수행하기 위한 컴퓨터 실행가능한 명령을 갖는 컴퓨터 판독 가능한 매체.
  6. 음성 인식 서버를 포함하는 인프라 스트락쳐와 무선통신하는 가입자 유닛에서, 가입자 유닛은 스피커와 마이크로폰을 포함하며, 스피커는 출력 음성 신호를 제공하고 마이크로폰은 입력 음성 신호를 제공하며, 입력음성 신호를 처리하는 방법에 있어서,
    출력 음성 신호의 프리젠텐이션 동안 입력 음성 신호의 개시를 검출하는 단계와;
    출력 음성 신호에 대하여 입력 음성 신호의 개시의 입력 개시 시간을 결정하는 단계와;
    제어 파라미터로 음성 인식 서버에 입력 개시 시간을 제공하는 단계를 구비한 것을 특징으로 하는 입력 음성 신호 처리 방법.
  7. 제 6항에 있어서,
    적어도 일부의 입력 개시 시간을 토대로 음성 인식 서버로부터 하나이상의 정보신호를 수신하는 단계를 더 포함하는 것을 특징으로 하는 입력 음성 신호 처리 방법.
  8. 제 6항에 있어서,
    개시 마커를 결정하는 단계는 출력 음성 신호의 개시보다 빠르지 않게 그리고 그 후의 출력 음성 신호의 개시보다 늦지 않게 입력 개시 시간을 결정하는 단계를 더 포함하는 것을 특징으로 하는 입력 음성 신호 처리 방법.
  9. 제 6항에 있어서,
    입력 개시 시간은 출력 음성 신호의 일시적 콘텍스트에 대한 타임 스탬프, 출력 음성 신호의 샘플 콘텍스트에 대한 샘플 인덱스 및 출력 음성 신호의 프레임 콘텍스트에 대한 프레임 인텍스중 어느 하나를 포함하는 것을 특징으로 하는 입력 음성 신호 처리 방법.
  10. 제 6항에 있어서,
    출력 음성 신호는 인프라스트락쳐에 의해 제공된 음성신호을 포함하는 것을 특징으로 하는 입력 음성 신호 처리 방법.
  11. 제 6항에 있어서,
    출력 음성 신호는 인프라스트락쳐에 의해 제공된 제어신호에 응답하여 가입자유닛에 의해 합성된 음성신호를 포함하는 것을 특징으로 하는 입력 음성 신호 처리 방법.
  12. 제 6항에 있어서,
    파라미터화한 음성신호를 제공하기 위해 입력 음성 신호를 결정하는 단계와;
    이 파라미터화한 음성신호를 음성 인식 서버에 제공하는 단계와;
    적어도 일부의 입력 개시 시간 및 파라미터화한 음성신호를 기반으로 하여 음성 인식 서버로부터 하나 이상의 정보신호를 수신하는 단계를 더 포함하는 것을 특징으로 하는 입력 음성 신호 처리 방법.
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 하나이상의 가입자 유닛과 무선 통신하는 인프라스트락쳐의 부분을 형성하는 음성 인식 서버에서, 정보신호를 하나 이상의 가입자 유닛 중의 가입자유닛에 제공하는 방법에 있어서,
    출력 음성 신호를 가입자유닛에 생기게 하는 단계와;
    가입자 유닛에서의 출력 음성 신호에 대한 입력 음성 신호의 개시에 대응하는 적어도 입력 개시 시간을 가입자 유닛으로부터 수신하는 단계와;
    적어도 일부의 입력 개시 시간에 응답하여 정보 신호를 가입자 유닛에 제공하는 단계를 구비한 것을 특징으로 하는 가입자 유닛에 정보신호를 제공하는 방법.
  19. 제 18항에 있어서,
    입력 개시 시간은 출력 음성 신호의 일시적 콘텍스트에 대한 타임 스탬프, 출력 음성 신호의 샘플 콘텍스트에 대한 샘플 인덱스 및 출력 음성 신호의 프레임 콘텍스트에 대한 프레임 인덱스 중 어느 하나인 것을 특징으로 하는 가입자 유닛에 정보신호를 제공하는 방법.
  20. 제 18항에 있어서,
    출력 음성 신호를 생기게 하는 단계는 음성 신호를 가입자 유닛에 제공하는 단계를 더 포함하는 것을 특징으로 하는 가입자 유닛에 정보신호를 제공하는 방법.
  21. 제 18항에 있어서,
    정보신호를 생기게 하는 단계는 정보신호를 가입자 유닛에 향하게 하는 단계를 더 포함하며, 상기 정보 신호는 가입자 유닛의 작동을 제어하는 것을 특징으로 하는 가입자 유닛에 정보신호를 제공하는 방법.
  22. 제 18항에 있어서,
    가입자 유닛은 하나 이상의 장치에 연결되어 있으며, 정보신호를 제공하는 단계는 정보신호를 하나 이상의 장치에 제공하는 단계를 더 포함하며, 정보신호는 하나 이상의 작동을 제어하는 것을 특징으로 하는 가입자 유닛에 정보신호를 제공하는 방법.
  23. 제 18항에 있어서,
    출력 음성신호를 생기게 하는 단계는 제어 시그널링을 가입자 유닛에 제공하는 단계를 더 포함하며, 제어 시그널링에 의해 가입자 유닛이 출력 음성 신호로 음성신호를 합성하는 것을 특징으로 하는 가입자 유닛에 정보신호를 제공하는 방법.
  24. 제 18항에 있어서,
    입력 음성 신호에 대응하는 파라미터화한 음성신호를 수신하는 단계와;
    적어도 일부의 입력 개시 시간과 파라미터화한 음성신호에 응답하여 정보신호를 가입자 유닛에 제공하는 단계를 더 포함하는 것을 특징으로 하는 가입자 유닛에 정보신호를 제공하는 방법.
  25. 하나이상의 가입자 유닛과 무선 통신하는 인프라스트락쳐의 부분을 형성하는 음성 인식 서버에서, 정보신호를 하나이상의 가입자 유닛 중 하나의 가입자 유닛에 제공하는 방법에 있어서,
    대응하는 식별을 가진 출력 음성신호를 가입자 유닛에 생기게 하는 단계와;
    입력 음성 신호가 출력 음성 신호의 프리젠테이션 동안 가입자 유닛에서 검출될때, 가입자 유닛으로부터 적어도 식별을 수신하는 단계와;
    적어도 일부의 식별에 응답하여 정보신호를 가입자 유닛에 제공하는 단계를 구비한 것을 특징으로 하는 정보신호를 가입자 유닛에 제공하는 방법.
  26. 제 25항에 있어서,
    출력 음성 신호를 생기게 하는 단계는 음성신호를 가입자 유닛에 제공하는 단계를 더 포함하는 것을 특징으로 하는 정보신호를 가입자 유닛에 제공하는 방법.
  27. 제 25항에 있어서,
    정보신호를 제공하는 단계는 정보신호를 가입자 유닛에 제공하는 단계를 더 포함하며, 상기 정보신호는 가입자 유닛의 작동을 제어하는 것을 특징으로 하는 정보신호를 가입자 유닛에 제공하는 방법.
  28. 제 25항에 있어서,
    가입자 유닛은 하나 이상의 장치에 연결되어 있으며, 정보신호를 제공하는 단계는 정보신호를 하나이상의 장치에 제공하는 단계를 더 포함하며, 정보신호는 하나 이상의 장치의 작동을 제어하는 것을 특징으로 하는 정보신호를 가입자 유닛에 제공하는 방법.
  29. 제 25항에 있어서,
    출력음성신호를 생기게 하는 단계는 제어 시그널링을 가입자 유닛에 제공하는 단계를 더 포함하며, 제어 시그널링은 가입자 유닛으로하여금 출력 음성 신호로 음성신호를 합성하게 하는 것을 특징으로 하는 정보신호를 가입자 유닛에 제공하는 방법.
  30. 제 25항에 있어서,
    입력 음성 신호에 대응하는 파라미터화한 음성 신호를 수신하는 단계와;
    적어도 일부의 식별 및 파라미터화한 음성 신호에 응답하여 정보신호를 가입자 유닛에 제공하는 단계를 더 포함하는 것을 특징으로 하는 정보신호를 가입자 유닛에 제공하는 방법.
  31. 스피커는 출력 음성 신호를 제공하며, 마이크로폰은 입력 음성 신호를 제공하며, 음성 인식 서버를 포함하는 인트라스트락쳐와 무선통신하는, 스피커와 마이크로폰을 가진 가입자 유닛에 있어서,
    입력 음성 신호의 개시를 검출하는 수단과;
    출력음성 신호에 대해 입력 음성 신호의 개시의 입력 개시 시간을 결정하는 수단과;
    제어 파라미터로 입력 개시 시간을 음성 인식 서버에 제공하는 수단을 구비한 것을 특징으로 하는 가입자 유닛.
  32. 제 31항에 있어서,
    적어도 일부의 입력 개시 시간을 토대로 음성 인식 서버로부터 하나이상의 제어신호를 수신하는 수단을 더 포함하는 것을 특징으로 하는 가입자 유닛.
  33. 제 32항에 있어서,
    파라미터화한 음성 신호를 제공하기 위해 입력 음성신호를 분석하는 수단을 더 포함하며;
    제공하는 수단은 파라미터화한 음성 신호를 음성 인식 서버에 제공하는 기능을 더하며, 수신하는 수단은 적어도 일부의 입력 개시 시간과 파라미터화한 음성신호를 기반으로 음성 인식 서버로부터 하나이상의 제어신호를 수신하는 기능을 더하는 것을 특징으로 하는 가입자 유닛.
  34. 제 31항에 있어서,
    입력 개시 시간을 결정하는 수단은 출력 음성 신호의 개시보다 빠르지 않게 그리고 그 후의 출력 음성 신호의 개시보다 늦지 않게 입력 개시 신호를 결정하는 기능을 하는 것을 특징으로 하는 가입자 유닛.
  35. 제 31항에 있어서,
    입력 개시 시간은 출력 음성 신호의 일시적 콘텍스트에 대한 타임 스탬프, 출력 음성 신호의 샘플 콘텍스트에 대한 샘플 인덱스 및 출력 음성 신호의 프레임 콘텍스트에 대한 프레임 인덱스중 어느 하나인 것을 특징으로 하는 가입자 유닛.
  36. 제 31항에 있어서,
    인트라스트락쳐로부터 출력 음성 신호로 제공될 음성 신호를 수신하는 수단 을 더 포함하는 것을 특징으로 하는 가입자 유닛.
  37. 제 31항에 있어서,
    인프라스트럭쳐로부터 출력 음성 신호에 관한 제어 시그널링을 수신하는 수단과;
    제어 시그널링에 응답하여 출력 음성 신호로 음성신호를 합성하는 수단을 더 포함하는 것을 특징으로 하는 가입자 유닛.
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 하나이상의 가입자 유닛과 무선통신하는 인프라스트락쳐의 부분을 형성하는 음성 인식 서버에 있어서,
    출력 음성 신호를 하나이상의 가입자 유닛에 생기게 하는 수단과;
    가입자 유닛으로부터 가입자 유닛에 있어서의 출력 음성 신호에 대한 입력 음성 신호의 개시에 대응하는 적어도 입력 개시 시간을 수신하는 수단과;
    적어도 일부의 입력 개시 시간에 응답하여 정보신호를 가입자 유닛에 제공하는 수단을 더 포함하는 것을 특징으로 하는 음성 인식 서버.
  44. 제 43항에 있어서,
    입력 개시 시간은 출격 음성 신호의 일시적 콘텍스트에 대한 타임 스탬프, 출력 음성 신호의 샘플 콘텍스트에 대한 샘플 인덱스 및 출력 음성 신호의 프레임 콘텍스트에 대한 프레임 인덱스 중 어느 하나 인것을 특징으로 하는 음성 인식 서버.
  45. 제 43항에 있어서,
    정보신호를 제공하는 수단은 정보 신호를 가입자 유닛에 제공하며, 정보 신호는 가입자 유닛의 작동을 제어하는 것을 특징으로 하는 음성 인식 서버.
  46. 제 43항에 있어서,
    가입자 유닛은 하나 이상의 장치에 연결되어 있으며, 정보신호를 제공하는 수단은 정보신호를 하나 이상의 장치에 향하도록 하며, 정보신호는 하나이상의 장치의 작동을 제어하는 것을 특징으로 하는 음성 인식 서버.
  47. 제 43항에 있어서,
    출력 음성 신호를 생기게 하는 수단은 출력 음성 신호로 제공하는 음성 신호를 제공하는 역할을 더 하는 것을 특징으로 하는 음성 인식 서버.
  48. 제 43항에 있어서,
    음성 신호를 생기게 하는 수단은 가입자유닛에 제어 시그널링을 제공하는 역할을 더 하며, 제어 시그널링은 가입자 유닛으로 하여금 출력 음성 신호로 음성 신호를 합성하게 하는 것을 특징으로 하는 음성 인식 서버.
  49. 제 43항에 있어서,
    수신하는 수단은 입력 음성 신호에 대응하는 파라미터화한 음성 신호를 수신하는 기능을 하며, 제공하는 수단은 적어도 일부분의 입력 개시 시간과 파라미터화한 음성 신호에 응답하여 정보신호를 가입자 유닛에 제공하기 하도록 더 기능을 하는 것을 특징으로 하는 음성 인식 서버.
  50. 하나 이상의 가입자 유닛과 무선 통신하는 인프라스트락쳐의 부분을 형성하는 음성 인식 서버에 있어서,
    대응하는 식별을 갖는 출력 음성신호를 하나 이상의 가입자 유닛에 생기게 하는 수단과;
    입력 음성 신호가 출력음성 신호의 리프리젠테이션 동안 가입자 유닛에서 검출될때 가입자 유닛으로부터 최소한의 식별을 수신하는 수단과;
    적어도 일부의 식별에 응답하여 정보신호를 가입자 유닛에 제공하는 수단을 구비한 것을 특징으로 하는 음성 인식 서버.
  51. 제 50항에 있어서,
    출력 음성 신호를 생기게 수단은 출력음성 신호로 제공되는 음성 신호를 제공하는 기능을 더 하는 것을 특징으로 하는 음성 인식 서버.
  52. 제 50항에 있어서,
    출력신호를 생기게 하는 수단은 제어 시그널링을 가입자 유닛에 제공하도록 더 기능을 하며, 제어 시그널링은 가입자 유닛에게 출력 음성 신호로 음성신호를 합성하게 하는 것을 특징으로 하는 음성 인식 서버.
  53. 제 50항에 있어서,
    수신하는 수단은 입력 음성 신호에 대응하는 파라미터화한 음성 신호를 수신하는 역할을 더하며, 제공하는 수단은 적어도 일부의 입력 개시 시간 및 파라미터한 음성신호에 응답하여 정보신호를 가입자유닛에 제공하는 역할을 더하는 것을 특징으로 하는 음성 인식 서버.
  54. 제 50항에 있어서,
    정보신호를 제공하는 수단은 정보신호를 가입자 유닛에 제공하는 역할을 더하며, 정보신호는 가입자 유닛의 작동을 제어하는 것을 특징으로 하는 음성 인식 서버.
  55. 제 50항에 있어서,
    가입자 유닛은 하나 이상의 장치에 연결되어 있고, 정보신호를 제공하는 수단은 정보신호를 하나 이상의 장치에 제공하며 정보신호는 하나 이상의 작동을 제어하는 것을 특징으로 하는 음성 인식 서버.
KR1020027004392A 1999-10-05 2000-10-04 출력 음성 신호의 프리젠테이션 동안 입력 음성 신호를 처리하는 방법 및 장치 KR100759473B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/412,202 1999-10-05
US09/412,202 US6937977B2 (en) 1999-10-05 1999-10-05 Method and apparatus for processing an input speech signal during presentation of an output audio signal

Publications (2)

Publication Number Publication Date
KR20020071850A KR20020071850A (ko) 2002-09-13
KR100759473B1 true KR100759473B1 (ko) 2007-09-20

Family

ID=23632018

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027004392A KR100759473B1 (ko) 1999-10-05 2000-10-04 출력 음성 신호의 프리젠테이션 동안 입력 음성 신호를 처리하는 방법 및 장치

Country Status (6)

Country Link
US (1) US6937977B2 (ko)
JP (2) JP2003511884A (ko)
KR (1) KR100759473B1 (ko)
CN (1) CN1188834C (ko)
AU (1) AU7852700A (ko)
WO (1) WO2001026096A1 (ko)

Families Citing this family (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010054622A (ko) * 1999-12-07 2001-07-02 서평원 음성 인식 시스템의 음성 인식률 향상 방법
EP1117191A1 (en) * 2000-01-13 2001-07-18 Telefonaktiebolaget Lm Ericsson Echo cancelling method
US7233903B2 (en) * 2001-03-26 2007-06-19 International Business Machines Corporation Systems and methods for marking and later identifying barcoded items using speech
US7336602B2 (en) * 2002-01-29 2008-02-26 Intel Corporation Apparatus and method for wireless/wired communications interface
US7369532B2 (en) * 2002-02-26 2008-05-06 Intel Corporation Apparatus and method for an audio channel switching wireless device
US7254708B2 (en) * 2002-03-05 2007-08-07 Intel Corporation Apparatus and method for wireless device set-up and authentication using audio authentication—information
AU2003228422A1 (en) * 2002-04-02 2003-10-20 William S. Randazzo Navigation system for locating and communicating with wireless mesh network
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7224981B2 (en) * 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US20050137877A1 (en) * 2003-12-17 2005-06-23 General Motors Corporation Method and system for enabling a device function of a vehicle
US20050193092A1 (en) * 2003-12-19 2005-09-01 General Motors Corporation Method and system for controlling an in-vehicle CD player
US20050134504A1 (en) * 2003-12-22 2005-06-23 Lear Corporation Vehicle appliance having hands-free telephone, global positioning system, and satellite communications modules combined in a common architecture for providing complete telematics functions
US7801283B2 (en) * 2003-12-22 2010-09-21 Lear Corporation Method of operating vehicular, hands-free telephone system
US7050834B2 (en) * 2003-12-30 2006-05-23 Lear Corporation Vehicular, hands-free telephone system
US7778604B2 (en) * 2004-01-30 2010-08-17 Lear Corporation Garage door opener communications gateway module for enabling communications among vehicles, house devices, and telecommunications networks
US7197278B2 (en) 2004-01-30 2007-03-27 Lear Corporation Method and system for communicating information between a vehicular hands-free telephone system and an external device using a garage door opener as a communications gateway
US20050186992A1 (en) * 2004-02-20 2005-08-25 Slawomir Skret Method and apparatus to allow two way radio users to access voice enabled applications
JP2005250584A (ja) * 2004-03-01 2005-09-15 Sharp Corp 入力装置
FR2871978B1 (fr) * 2004-06-16 2006-09-22 Alcatel Sa Procede de traitement de signaux sonores pour un terminal de communication et terminal de communication mettant en oeuvre ce procede
TWM260059U (en) * 2004-07-08 2005-03-21 Blueexpert Technology Corp Computer input device having bluetooth handsfree handset
DE602004024318D1 (de) * 2004-12-06 2010-01-07 Sony Deutschland Gmbh Verfahren zur Erstellung einer Audiosignatur
US8706501B2 (en) * 2004-12-09 2014-04-22 Nuance Communications, Inc. Method and system for sharing speech processing resources over a communication network
US20060258336A1 (en) * 2004-12-14 2006-11-16 Michael Sajor Apparatus an method to store and forward voicemail and messages in a two way radio
US9104650B2 (en) * 2005-07-11 2015-08-11 Brooks Automation, Inc. Intelligent condition monitoring and fault diagnostic system for preventative maintenance
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007027989A2 (en) * 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
US7876996B1 (en) 2005-12-15 2011-01-25 Nvidia Corporation Method and system for time-shifting video
US8738382B1 (en) * 2005-12-16 2014-05-27 Nvidia Corporation Audio feedback time shift filter system and method
US20080086311A1 (en) * 2006-04-11 2008-04-10 Conwell William Y Speech Recognition, and Related Systems
US8249238B2 (en) * 2006-09-21 2012-08-21 Siemens Enterprise Communications, Inc. Dynamic key exchange for call forking scenarios
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US9135797B2 (en) 2006-12-28 2015-09-15 International Business Machines Corporation Audio detection using distributed mobile computing
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
WO2008132533A1 (en) * 2007-04-26 2008-11-06 Nokia Corporation Text-to-speech conversion method, apparatus and system
US7987090B2 (en) * 2007-08-09 2011-07-26 Honda Motor Co., Ltd. Sound-source separation system
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
JP5635522B2 (ja) * 2009-10-09 2014-12-03 パナソニック株式会社 車載装置
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
JP5156043B2 (ja) * 2010-03-26 2013-03-06 株式会社東芝 音声判別装置
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US8977555B2 (en) 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
JP5753869B2 (ja) * 2013-03-26 2015-07-22 富士ソフト株式会社 音声認識端末およびコンピュータ端末を用いる音声認識方法
US9277354B2 (en) * 2013-10-30 2016-03-01 Sprint Communications Company L.P. Systems, methods, and software for receiving commands within a mobile communications application
US20170286049A1 (en) * 2014-08-27 2017-10-05 Samsung Electronics Co., Ltd. Apparatus and method for recognizing voice commands
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US9552816B2 (en) * 2014-12-19 2017-01-24 Amazon Technologies, Inc. Application focus in speech-based systems
US9912977B2 (en) * 2016-02-04 2018-03-06 The Directv Group, Inc. Method and system for controlling a user receiving device using voice commands
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9826306B2 (en) 2016-02-22 2017-11-21 Sonos, Inc. Default playback device designation
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10453449B2 (en) * 2016-09-01 2019-10-22 Amazon Technologies, Inc. Indicator for voice-based communications
US10580404B2 (en) 2016-09-01 2020-03-03 Amazon Technologies, Inc. Indicator for voice-based communications
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
KR102371313B1 (ko) * 2017-05-29 2022-03-08 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10515637B1 (en) 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN109166570B (zh) * 2018-07-24 2019-11-26 百度在线网络技术(北京)有限公司 一种语音切分的方法、装置、设备和计算机存储介质
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10878811B2 (en) * 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
JP2020052145A (ja) * 2018-09-25 2020-04-02 トヨタ自動車株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6044108A (en) 1997-05-28 2000-03-28 Data Race, Inc. System and method for suppressing far end echo of voice encoded speech
US6098043A (en) 1998-06-30 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved user interface in speech recognition systems

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4253157A (en) * 1978-09-29 1981-02-24 Alpex Computer Corp. Data access system wherein subscriber terminals gain access to a data bank by telephone lines
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
JPH0831021B2 (ja) * 1986-10-13 1996-03-27 日本電信電話株式会社 音声ガイダンス出力制御方法
US4914692A (en) * 1987-12-29 1990-04-03 At&T Bell Laboratories Automatic speech recognition using echo cancellation
CA2032765C (en) * 1989-12-21 1995-12-12 Hidetaka Yoshikawa Variable rate encoding and communicating apparatus
US5155760A (en) * 1991-06-26 1992-10-13 At&T Bell Laboratories Voice messaging system with voice activated prompt interrupt
JP3681414B2 (ja) * 1993-02-08 2005-08-10 富士通株式会社 通話路制御方法及び装置
US5657423A (en) * 1993-02-22 1997-08-12 Texas Instruments Incorporated Hardware filter circuit and address circuitry for MPEG encoded data
US5475791A (en) * 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
FI93915C (fi) * 1993-09-20 1995-06-12 Nokia Telecommunications Oy Digitaalisen radiopuhelinjärjestelmän transkoodausyksikkö ja transdekoodausyksikkö sekä menetelmä transkoodausyksikön ulostulon säätämiseksi ja transdekoodausyksikön ulostulon säätämiseksi
US5758317A (en) * 1993-10-04 1998-05-26 Motorola, Inc. Method for voice-based affiliation of an operator identification code to a communication unit
DE4339464C2 (de) * 1993-11-19 1995-11-16 Litef Gmbh Verfahren zur Sprachverschleierung und -entschleierung bei der Sprachübertragung und Einrichtung zur Durchführung des Verfahrens
GB2292500A (en) * 1994-08-19 1996-02-21 Ibm Voice response system
US5652789A (en) 1994-09-30 1997-07-29 Wildfire Communications, Inc. Network based knowledgeable assistant
US5708704A (en) * 1995-04-07 1998-01-13 Texas Instruments Incorporated Speech recognition method and system with improved voice-activated prompt interrupt capability
US5652791A (en) * 1995-07-19 1997-07-29 Rockwell International Corp. System and method for simulating operation of an automatic call distributor
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
US6236715B1 (en) * 1997-04-15 2001-05-22 Nortel Networks Corporation Method and apparatus for using the control channel in telecommunications systems for voice dialing
US5910976A (en) * 1997-08-01 1999-06-08 Lucent Technologies Inc. Method and apparatus for testing customer premises equipment alert signal detectors to determine talkoff and talkdown error rates

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6044108A (en) 1997-05-28 2000-03-28 Data Race, Inc. System and method for suppressing far end echo of voice encoded speech
US6098043A (en) 1998-06-30 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved user interface in speech recognition systems

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BeVocal (voice portal) Service
ENTERPRISE INTEGRATION GROUP, How to Build a Speech Recognition Application
Tellme Service
VoiceXML Forum, Voice Extensible Markup Language

Also Published As

Publication number Publication date
US20030040903A1 (en) 2003-02-27
WO2001026096A1 (en) 2001-04-12
JP5306503B2 (ja) 2013-10-02
CN1188834C (zh) 2005-02-09
US6937977B2 (en) 2005-08-30
KR20020071850A (ko) 2002-09-13
JP2003511884A (ja) 2003-03-25
CN1408111A (zh) 2003-04-02
AU7852700A (en) 2001-05-10
JP2012137777A (ja) 2012-07-19

Similar Documents

Publication Publication Date Title
KR100759473B1 (ko) 출력 음성 신호의 프리젠테이션 동안 입력 음성 신호를 처리하는 방법 및 장치
KR100742259B1 (ko) 로컬 인터럽트 검출을 기반으로 한 음성인식 기술
USRE45066E1 (en) Method and apparatus for the provision of information signals based upon speech recognition
US5594784A (en) Apparatus and method for transparent telephony utilizing speech-based signaling for initiating and handling calls
US6744860B1 (en) Methods and apparatus for initiating a voice-dialing operation
US8520810B1 (en) Performing speech recognition over a network and using speech recognition results
US20020173333A1 (en) Method and apparatus for processing barge-in requests
WO2005074634A2 (en) Audio communication with a computer
EP1347624A3 (en) System and method for providing voice-activated presence information
US20020097844A1 (en) Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs
US20020118803A1 (en) Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs, for telephones without private branch exchanges
US7239859B2 (en) Method and system for establishing a telephony data connection to receiver
WO2021150647A1 (en) System and method for data analytics for communications in walkie-talkie network
EP2172895A1 (en) Providing information within the scope of a voice communication connection
KR20020072359A (ko) 음성인식을 이용한 무인 자동 전화교환 및 웹메일링시스템 및 방법
JP2003008745A (ja) 音声補完方法及び音声補完装置ならびに電話端末装置
JPH0898226A (ja) 自動受付装置
JPH0425269A (ja) 音声合成装置

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120821

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130820

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140822

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150824

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160829

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170830

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20190829

Year of fee payment: 13