KR20020077422A - 인터넷 접근을 위한 분산 음성 인식 - Google Patents

인터넷 접근을 위한 분산 음성 인식 Download PDF

Info

Publication number
KR20020077422A
KR20020077422A KR1020027010153A KR20027010153A KR20020077422A KR 20020077422 A KR20020077422 A KR 20020077422A KR 1020027010153 A KR1020027010153 A KR 1020027010153A KR 20027010153 A KR20027010153 A KR 20027010153A KR 20020077422 A KR20020077422 A KR 20020077422A
Authority
KR
South Korea
Prior art keywords
target
address
user
request
source
Prior art date
Application number
KR1020027010153A
Other languages
English (en)
Inventor
시어도어 디. 프리드만
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20020077422A publication Critical patent/KR20020077422A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Abstract

검색 서버(search server)는 정보 소스(information source)에 사용자 어드레스(user address)를 제공하고, 사용자에 의해 정보 소스의 접근을 실행하는 것을제공한다. 사용자는 검색 서버로 요청을 보내고, 검색 서버는 요청에 대응하는 정보 소스의 어드레스(URL)를 확인한다. 요청은 구두 요청(verbal request)이거나, 또는 구두 요청에 대응하는 모델 데이터일 수 있고, 검색 서버는 음성 인식 시스템(speech recognition system)을 포함할 수 있다. 그 후에, 검색 서버는 이 요청에 응답하기 위한 "응답 어드레스(reply-to address)"로서 사용자의 어드레스를 사용하여, 확인된 정보 소스로 요청을 전달한다. 사용자의 어드레스는 사용자가 초기 요청을 전달하도록 사용되는 장치의 어드레스일 수 있거나, 또는 사용자와 연관된 또다른 장치의 어드레스일 수 있다.

Description

인터넷 접근을 위한 분산 음성 인식{Distributed speech recognition for internet access}
음성 인식 시스템들은 구두의 단어들(spoken words)과 구들(phrases)을 문자 열들(text strings)로 변환한다. 음성 인식 시스템들은 " 국부(local)"이거나 "원격(remote)"일 수 있고, 및/또는 "통합(integrated)" 또는 "분산(distributed)"일 수 있다. 자주, 원격 시스템들은 원격지(remote site)에 음성 인식 시스템의 대부분을 제공하면서, 사용자의 국부지(local site)에 구성요소들을 포함한다. 이와 같이, 용어들 원격과 분산은 서로 교환할 수 있게 자주 사용된다. 마찬가지로, 사무 환경에서 네트워크와 같은, 어떤 국부 네트워크들은 사용자 국들(user stations)에게 서버들을 제공하는 파일과 응용 서버들을 포함할 수 있다. 비록 음성 인식 응용과 같은 그런, 응용이 응용 서버 위에 전적으로(totally) 존재하더라도(reside),응용 서버들에 의해 제공되는 응용들은 "분산"되도록 일반적으로 고려된다. 이 개시의 목적들을 위해, 용어 "분산"은 가장 넓은 의미에서 사용되고, 구두의 명령들로부터 문자열들이 제공되는 응용 내에서 통합되지 않는 임의의 음성 인식 시스템을 포함한다. 일반적으로 그런 분산 음성 인식 시스템들은 음성 입력 제어 응용(voice-input control application)으로부터, 구두의 구들, 또는 구두의 구들의 인코딩(encoding)을 수신하고, 적합한 응용 프로그램으로 경로 지정(routing)을 하기 위한 제어 응용에 대응하는 텍스트 열을 리턴한다.
도 1은 종래의 범용(general purpose) 음성 인식 시스템(100)을 도시한다. 음성 인식 시스템(100)은 제어기(110), 음성 인식기(120), 그리고 사전(dictionary)(125)을 포함한다. 제어기(110)는 음성 모델러(speech modeler)(112)와 문자 처리기(114)를 포함한다. 사용자가 마이크로폰(microphone)(101)으로 말할 때, 음성 모델러(112)는 모델 데이터로 음성 입력(voice input)을 인코드하고, 이 모델 데이터는 음성 인식을 실행하도록(effect) 사용되는 특정 체계(particular scheme)에 기초한다. 모델 데이터는 예를 들어, 각각의 음운(phoneme) 또는 음운들의 그룹을 위한 심볼을 포함하고, 음성 인식기(120)는 심볼들에 기초한 단어들 또는 구들을 인식하도록 구성되고, 심볼들과 텍스트 사이에서 매핑을 제공하는 사전(125)에 기초된다.
텍스트 처리기(114)는 음성 인식기(120)로부터의 텍스트를 이 텍스트에 응답하여 적합한 행동(action)을 결정하도록 처리한다. 예를 들어, 텍스트는 "단어로 가라(GO TO WORD)"일 수 있고, 이 텍스트에 응답해서, 제어기(110)는 특정 단어 처리 응용(140)을 시작하기 위해서 시스템(130)으로 적합한 명령들을 제공한다. 그후에, "구술 시작(Begin Dictation)" 텍스트 열은 "구술 종료(End Dictation) 텍스트 열이 음성 인식기(120)로부터 수신될 때까지, 처리 없이, 응용(140)으로 모든 후속적인 텍스트 열들이 통과하도록 제어기를 야기할 수 있다.
음성 인식기(120)는 음성에 문자를 결합하기 위해 임의의 다양한 기술들을 사용할 수 있다. 빈약한 어휘 시스템(small vocabulary system)에서, 예를 들어, 인식기(120)는 모델 데이터가 음성 모델러로부터 가장 가깝게 매치되는(match) 텍스트를 단지 선택할 수 있다. 풍부한 어휘 시스템(large vocabulary system)에서, 인식기(120)는 문법에 기초되는 규칙들과 같은, 보조 정보(auxiliary information)를 음성 모델러로부터의 모델 데이터를 가깝게 매치하는 실행 가능한 대안들 중에서 선택하도록 사용될 수 있다. 음성을 텍스트로 변환하기 위한 기술들은 이 기술에서 일반적이다. 음성 인식기로부터 제공된 텍스트는 구두의 구들의 직접 번역이 필요하지 않다는 것을 주목해라. 예를 들어, 구두의 구 "조를 불러라(Call Joe)"는 사전(125)으로부터 "1-914-555-4321"의 텍스트 열이 될 수 있다. 분산 음성 인식 시스템에서, 음성 인식기(120)와 사전(125)의 전체 또는 부분은 음성 모델러(112)와 문자 처리기(114)로부터의 분리된 응용일 수 있다. 예를 들어, 음성 인식기(120)와 사전(125)은 원격 인터넷 사이트에 위치될 수 있고, 인식기(120)로 사용자의 스피치를 전달하는데 요구되는 대역폭(bandwidth)을 최소화하도록 국부지에 음성 모델러(112)는 위치될 수 있다.
여기에 참고로서 통합된, 이찌로 하타노(Ichro Hatana)의, 1999년 8월 25일에 출원된, 유럽 특허 출원 EP0982672A2 "검색 보조 시스템을 갖는 정보 검색 시스템(INFORMATION RETRIEVAL SYSTEM WITH A SEARCH ASSIST SYSTEM)"은, 인터넷 사이트와 같은, 복수개의 정보 서버들 각각에 접근하도록 식별자들의 리스트를 갖는 정보 검색 시스템을 개시한다. 각각의 정보 서버와 연관된 이 식별자들은 "발음(pronunciation)" 식별자를 포함하는, 서버를 확인하기 위한 다양한 수단을 포함한다. 사용자의 구두의 구가 특정 정보 서버의 발음 식별자에 대응할 때, 예를 들면, 서버들의 유알엘들(Universal resource locators(URLs))인, 서버의 위치는 검색된다. URL은 이 URL에 정보 서버로부터 정보를 검색하는 응용에 제공된다. Inc., 스프라이드지(Spridge)로부터의 마이스피치(myspeech) 응용과 같은, 상업적인 응용들은 인터넷 가능 전화(phone instrument)를 통한 모바일 웹 접근(mobile web access)을 타겟되는(target) 유사한 능력(capability)을 제공한다.
도 2는 인터넷 웹 사이트들로 접근을 용이하게 하도록 구성된 특별한 목적의 음성 처리 시스템의 실시 예를 도시한다. URL 검색 서버(220)는 인터넷(250)을 통해, 사용자 국(230)으로부터 입력을 수신한다. 사용자 국(230)으로부터의 입력은 검색 서버(220)가 사용자의 입력의 처리 결과를 지시하는데 사용하는 "응답(reply-to)" 어드레스와 마이크로폰(210)으로부터 입력에 대응하는 모델 데이터를 포함한다. 이 응용에서, 사용자 입력의 처리되는 결과들은 "발견하지 못함(not-found)"이거나, 또는 사용자의 입력에 대응하는 사이트의 URL을 포함하는 메시지 중 하나이다. 사용자 국(230)은 정보 소스(210)가 사용자에게 메시지를 다시 보내도록 사용하는 앞에서 언급된 "응답(reply-to)" 어드레스 뿐 아니라, 정보 소스(210)로 메시지를 보내도록 제공된 URL을 사용한다. 전형적으로, 정보 소스(210)로부터의 메시지는 웹 페이지(web page)이다. 만약 사용자 국(230)이 이동 장치라면, 무선 접근 프로토콜(wireless access protocol)(WAP)이 전형적으로 사용될 것임을 주목해라. 정보 소스(210)으로부터의 WAP 메시지는 WML(wireless markup language)을 사용하여 인코드되는 "한 벌(deck)"로부터 "카드들(cards)"이 집합(set)될 것이다.
이 발명은 통신들의 분야에 관련하고, 특히 구두의 명령어들(spoken commands)을 통해 인터넷 접근을 제공하는 것에 관련한다.
도 1은 종래 기술에 따른 다목적 음성 인식 시스템을 도시한 예시 블록도.
도 2는 종래 기술에 따른 음성 인식 시스템을 포함한 검색 시스템을 도시한 예시 블록도.
도 3a와 3b는 이 발명에 따른 검색 시스템을 도시한 예시 블록도.
도 4는 이 발명에 따른 검색 시스템을 도시한 예시 순서도.
음성 인식 시스템을 통해 인터넷 접근의 효율을 개선하는 것이 이 발명의 목적이다. 이동 장치를 통해 인터넷 접근의 효율을 개선하는 것이 이 발명의 그 밖의 목적이다. 인터넷 접근의 응답 시간을 개선하는 것이 이 발명의 그 밖의 목적이다.
이 목적들과 다른 목적들은 사용자에 의해 정보 소스의 접근이 실행되도록 정보 소스로 사용자 어드레스를 제공하는 검색 서버들을 제공함으로써 성취된다. 사용자는 검색 서버로 요청을 보내고, 검색 서버는 요청에 대응하는 정보 소스의 어드레스(URL)를 확인한다(identify). 요청은 구두 요청(verbal request), 또는 구두 요청에 대응하는 모델 데이터일 수 있고, 검색 서버는 음성 인식 시스템을 포함할 수 있다, 그 후에, 검색 서버는 이 요청에 응답하기 위한 "응답 어드레스(reply-to address)"로서 사용자의 어드레스를 사용하여, 확인된 정보 소스로 요청을 전달한다. 사용자의 어드레스는 사용자가 초기 요청을 전달하도록 사용한 어드레스일 수 있거나, 또는 다른 사용자와 연관된 또다른 장치의 어드레스일 수 있다.
본 발명은 첨부된 도면을 참조하여, 예시의 방법에 의해, 더 상세하게 설명된다.
도면들을 통해, 동일한 참고번호들은 유사하거나 일치하는 특징들 또는 기능들은 나타낸다.
도 3a와 3b는 이 발명에 따른 검색 시스템 300, 300'의 예시 블록 도들을 도시한다. 이해를 쉽게 하기 위해서, 송신기들, 수신기들, 모뎀들(modems), 그리고 등등과 같은, 시스템 300, 300'의 각각의 구성요소들 중에서 통신을 실행하는 종래의 수단은, 도시되지 않았으나, 기술에서 보통 숙련된 자에게 명백해질 것이다.
도 3a의 예에서, 사용자는 사용자 국(330)으로부터의 요청을 URL 검색 서버(320)에 제출한다(submit). 검색 서버(320)는 사용자 요청에 대응하는 단일 URL을 결정하도록 구성된다. 그와 같이, 이것은 음성 인식 시스템에서의 사용에 특히 매우 적합하고, 사용자는 특정한 미리 정의된 웹 사이트를 접근하기 위한 요청으로서, "주가들을 획득(Get Stock Prices)"과 같은, 키워드나 구를 사용한다. 구두의 구는 마이크로폰(210)을 통해 사용자 국(330)으로 입력된다. 사용자 국(330)은 이동 전화, 팜톱 장치(palmtop device), 포터블 컴퓨터(portable computer), 세트톱 박스(set-top box), 또는 인터넷(250)과 같은, 광역 네트워크로 접근을 제공할 수 있는 임의의 다른 장치일 수 있다. 네트워크(250)로의 접근은 하나 또는 그 이상의 겟어웨이들(getaways)(미도시)을 통할 수 있다.
스피치 인식 예에서, 사용자 국은 바람직하게 구두의 구를 모델 데이터로 인코드하여 더 적은 대역폭(less bandwidth)이 서버(320)에 구두 요청을 전달하도록 사용된다. 서버(320)는 요구에 따라, 모델 데이터를 URL 로케이터(322)가 사용하는 형태로 변환하는 음성 인식기(120)와 사전(125)을 포함한다. 예를 들어, 앞서 말한 마이스피치(myspeech) 응용에서, 사용자는 사용자가 나중에 접근하도록 예기되는 각각의 정보 소스(210)를 위해,
"주가들을 획득", http://www.stocksonline/userpage3/과 같은 텍스트 열과 대응 URL을 입력함으로써 응용 데이터베이스(325)를 설정한다.
앞서 말한 EP0982672A2 특허 출원에서, 데이터베이스는 각각의 URL에 대응하는 구들의 음운들의 텍스트 인코딩을 포함한다.
비록 이 발명이 음성 인식을 위해, 그리고 음성 인식기(120)가 검색 서버(320)에 위치되는 분산 음성 인식을 위해 매우 적합하지만, 사용자 국(330)은 직접적으로 URL 위치(122)에 요청을 제공한다. 예를 들어, 이 요청은 사용자에 의해 입력된 텍스트 스트림일 수 있고, 이 요청은 사용자 국(330)에 음성 인식기의 출력, 그리고 등등이 될 수 있다.
종래의 TCP/IP 요청에서와 같이, 사용자로부터의 요청은, 요청의 소스(330)의 어드레스, 및/또는 명시된(explicit) "응답(reply-to)" 어드레스를 포함한다. 일반적으로, 검색 서버는 사용자 국(330)으로 확인된 정보 소스 URL을 다시 보내는데 이 어드레스를 사용한다.
이 발명에 따라, 검색 서버(320)는 확인된 정보 소스(210)에 직접적으로 요청을 전달하고, 요청은 요청의 소스로서, 및/또는 명시된 "응답(reply-to)" 어드레스로서 사용자 국(320)의 어드레스를 확인한다. 이런 방법에서, 정보 소스(210)가 요청에 응답하면, 응답은 사용자 국(330)에 직접적으로 보내진다. 선택적으로, 위치된 URL은 만약 요구되면, 정보 소스(210)에 후속적인 직접 접근을 위해, 사용자 국(330)으로 또한 보내진다.
서버(320)로부터 보내진 특정한 요청은 웹 사이트로 접근하기 위한 고정된 요청일 수 있거나, 또는, 바람직한 실시예에서, 각각의 구에 대응하는 요청의 형태는 데이터베이스(325)내에 포함될 수 있다. 예를 들어, 어떤 요청들은 URL에서 웹 페이지의 다운로드를 위한 일반적인 요청들일 수 있고, 한편으로 다른 요청들은, 예를 들어 옵션의 선택, 검색 요청, 그리고 등등을 통해, 웹 사이트 내의 정보에 접근하기 위한 부명령들(sub-commands)일 수 있다. URLs에 대응하는 구들 이외에, 바람직한 실시예 내의 데이터베이스(325)는 저장된 구들과 연관되어지는 다른 정보를 허용하도록 또한 구성된다. 예를 들어, 숫자들 또는 문자들, 또는"다음(next)", "다시(back)", 그리고 "홈(home)"과 같은 특정 키워드들과 같은, 어떤 구들은 데이터베이스(325) 내에서 그리고 서버(320) 정의될 수 있어 대응하는 명령 또는 열이 마지막에 참고된 URL에 정보 소스(210)로 직접적으로 전달된다.
도 3b는 본 발명의 대안적인 실시 예를 도시하고, 사용자와 연관되는 두개, 또는 그 이상의, 국들(330a), (330b)이 있다. 예를 들어, 사용자 국(330a)과 마이크로폰(201)은 이동 전화일 수 있고, 사용자 국(330b)은 차량 항법 시스템(car navigation system)일 수 있다. 바람직한 실시 예에서, 사용자 국(330a)은 사용자 요청 소스로서 다른 사용자 국(330b)의 어드레스, 또는 명시된 "응답(reply-to)" 어드레스를 제공한다. 검색의 편리를 위해 용어 "소스 어드레스(source address)"는 명시된 응답 어드레스의 함축적인 것 중에 하나를 포함하도록 이하에 사용된다. URL 서버(320)는 위치된 정보 소스(210)로 요청내의 소스 어드레스로서 두 번째 사용자 국(330b)의 이 소스 어드레스를 사용한다. 이 실시 예는 음성 입력을 위해 구성되지 않은 장치들(330b), 및/또는, 다운로드된 웹 페이지 또는 WAP 한 벌(deck)들을 수신하기 위해 구성되지 않은 장치들(330a)을 위해 특히 매우 적합하다. 예를 들어, 사용자는 특정 맵(map)의 대응하는 URL 어드레스를 갖는 데이터베이스(325)에서 열 "도심지를 보여라(show downtown)"를 인코드할 수 있다. 사용자는 URL 검색 서버(320)로 다음 요청들에서 국(330B0의 어드레스를 포함하도록 국(330a)을 구성한다. 사용자가 구 "도심지를 보여라"를 말하면, 국(330a)은 검색 서버(320)로, 국(320b)의 어드레스와 함께, 이 구에 대응하는 모델 데이터를 송신한다. 검색 서버(320)는 그 후에 국(330b)의 어드레스를 포함하는, 대응하는 정보 소스(210)로특정 지도를 위한 요청을 전달하고, 소스(210)는 국(330b)에 지도를 전달한다. 사용자는 또한 "확대(zoom in)", "축소(zoom out)", "북쪽으로 통과(path north)", 그리고 등등과 같은 구들을 데이터베이스(325)에 인코드하고, 검색 서버(320)는, 마치 명령들이 국(330b)으로부터 발생된(originate) 것처럼, 정보 소스(210)로 대응하는 명령들을 전달할 것이다.
서버(320)에 요청들 내의 국(330b)의 어드레스를 포함하도록 사용자 국(330a)을 형성하는 대신에, 데이터베이스(325)는 일정한 구들을 위해 미리 정의된 소스 URLs를 위한 필드를 또한 포함하도록 구성될 수 있다. 예를 들어, 구 "차안에서 도심지 지도를 보여라(Show Downtown Map In Car)"는 데이터베이스(325)의 "타겟 URL" 필드에서 맵의 어드레스에 대응할 수 있고, "소스 URL" 필드에서 사용자의 차량 항법 시스템의 URL 어드레스에 대응할 수 있다. 이 발명의 원리들의 사용을 향상하기 위한 이것들과 다른 옵션들은 이 기술에서 보통 숙련된 자에 의해 명백해질 것이다.
도 4는 도 3의 검색 서버(320)에서 실시될 수 있는 것으로서, 이 발명에 따라 검색 시스템의 예시 순서도를 도시한다. 도 4의 예시 순서도는 소모적이 되도록 하려는 것이 아니고, 이 기술에서 보통 숙련된 자에게는 대안적인 프로세싱 체계들은 위에 논의된 특징들과 옵션 등을 실행하기 위해 사용될 수 있는 것은 명백할 것이다.
410에서, 음성 입력에 대응하는 모델 데이터는 수신되고, 420에서, 이 모델 데이터는 음성 인식기를 통해, 텍스트 열로 변환된다. 모델 데이터를 포함하는 메시지는 소스 URL의 확인을 포함한다. 루프 430-450은 도 3의 서버(320)의 데이터베이스(325)와 관련해 위에 논의된 것처럼, 모델 데이터를 저장된 데이터 구들에 비교한다. 만약, 435에서, 모델 데이터가 저장된 데이터 구에 대응하면, 대응한 타겟 URL이 검색된다. 위에 알려진 것처럼, 대응하는 명령들 또는 텍스트 열들과 같은, 다른 정보들이 또한 검색될 것이다. 470에서, 요청은 타겟 URL에 전달되고, 이 요청은 위에 논의된 것처럼, 410에서 수신된 소스 어드레스를 포함하여 타겟 URL이 원시 소스 어드레스에 직접적으로 응답한다. 만약 모델 데이터가 임의의 저장된 데이터 구들을 매치하지 않으면, 사용자는 460에서, 통보된다.
전술한 것은 단지 본 발명의 원리들을 도시한다. 이 기술에서 이 숙련된 자는 비록 여기에 명백하게 설명되거나 도시되지 않지만, 본 발명의 원리들을 구성하고 이하 청구항들의 사상과 범위 내에 속하는 다양한 장치들(arrangements)을 고안할 수 있다는 것이 이해될 것이다.

Claims (16)

  1. 검색 장치(320)에 있어서,
    소스 장치(330)로부터의 소스 어드레스(source address)와 타겟 식별자(target identifier)를 수신하도록 구성된 수신기와,
    상기 타겟 식별자에 대응하는 타겟 어드레스(210)를 확인하도록 구성된 타겟 로케이터(target locator)(322)와,
    상기 타겟 어드레스(210)에 요청을 전달하도록 구성된 송신기를 포함하고;
    상기 요청은 상기 검색 장치(320)의 상기 송신기로부터의 상기 요청에 대한 의도된 수령(recipient)으로써 소스 어드레스를 포함하는, 검색 장치.
  2. 제 1항에 있어서,
    상기 타겟 식별자는 음성 구(vocal phrase)에 대응하고, 그리고
    상기 검색 장치(320)는 상기 타겟 어드레스(210)를 확인하도록 사용되는 상기 타겟 로케이터(322)로 입력을 제공하도록 상기 타겟 식별자를 처리하는 음성 인식기(210)를 더 포함하는, 검색 장치.
  3. 제 1항에 의해서,
    상기 소스 어드레스는 상기 소스 장치(330)와, 상기 소스 장치(330a)와는 다른 목적지 장치(destination device)(330b) 중 하나에 대응하는, 검색 장치.
  4. 제 1항에 있어서,
    상기 송신기와 수신기는 인터넷(250) 접속을 통해 통신하도록 구성된, 검색 장치.
  5. 제 4항에 있어서,
    상기 소스 어드레스와 타겟 어드레스(210)는 유알엘들(Universal resource locators(URLs))인, 검색 장치.
  6. 제 1항에 있어서,
    상기 수신기는 상기 소스 장치(330)로부터 다음 입력을 수신하도록 더 구성되고,
    상기 타겟 로케이터(322)는 상기 다음 입력에 일치하는 텍스트 열(text string)을 확인하도록 더 구성되고,
    상기 송신기는 상기 타겟 어드레스(210)에 텍스트 열을 전달하도록 더 구성된, 검색 장치.
  7. 제 6항에 있어서,
    상기 다음 입력은 음성 구(vocal phrase)에 대응하고,
    상기 타겟 로케이터(322)는 상기 텍스트 열을 제공하도록 상기 다음 입력을처리하는 음성 인식기(speech recognizer)(120)를 더 포함하는, 검색 장치.
  8. 사용자 장치(330)에 있어서,
    사용자 입력을 수신하고, 소스 어드레스와, 로케이터 장치(320)로, 상기 사용자 입력에 대응하는 타겟 식별자를 송신하고,
    상기 타겟 소스(210)로 직접적으로 요청을 초기화함이 없이, 상기 타겟 식별자(target identifier)에 대응하는 타켓 소스(210)로부터 응답을 수신하도록 구성된 응용을 포함하는, 사용자 장치.
  9. 제 8항에 있어서,
    상기 응용은 상기 로케이터 장치(320)로 송신되고, 인터넷(250)을 통해, 상기 타겟 소스(210)로부터 수신하는, 사용자 장치.
  10. 제 8항에 있어서,
    상기 사용자 입력(user input)은 음성 입력(vocal input)에 대응하고,
    상기 응용은 상기 타겟 식별자를 제공하기 위해 상기 음성 입력을 처리하도록 더 구성된, 사용자 장치.
  11. 사용자에게 서비스를 제공하는 방법에 있어서,
    상기 사용자로부터의 타겟 식별자와, 연관된 주소를 수신하고(410), 상기 타겟 식별자에 대응하는 타겟 어드레스(210)을 확인하고(440), 상기 타겟 어드레스(210)로 요청을 송신하고(470),
    상기 요청은 상기 요청에 대한 응답의 의도된 수령으로써 연관된 어드레스를 포함하는, 사용자에게 서비스를 제공하는 방법.
  12. 제 11항에 있어서,
    상기 타겟 식별자는 음성 구에 대응하고,
    상기 방법은 상기 타겟 어드레스(210)을 확인하는데 사용되는 검색 아이템(search item)을 제공하도록 상기 타겟 식별자를 처리하는(420) 것을 더 포함하는, 사용자에게 서비스를 제공하는 방법.
  13. 제 11항에 있어서,
    상기 연관된 어드레스는 상기 사용자로부터 상기 타겟 식별자의 소스 장치(330)와, 상기 소스 장치(330a)와는 다른 목적지 장치(330b) 중 하나에 대응하는, 사용자에게 서비스를 제공하는 방법.
  14. 제 11항에 있어서,
    상기 수신과 송신은 인터넷(250) 접속을 통해 각각 실행되는(effect), 사용자에게 서비스를 제공하는 방법.
  15. 제 14항에 있어서,
    상기 소스 어드레스와 타겟 어드레스(210)는 유알엘들(Universal resource locators(URLs))인, 사용자에게 서비스를 제공하는 방법.
  16. 제 11항에 있어서,
    상기 사용자로부터 다음 입력을 수신하고,
    상기 다음 입력에 대응하는 텍스트 열을 확인하고,
    상기 타겟 어드레스(210)로 상기 텍스트 열을 송신하는 것을 더 포함하는, 사용자에게 서비스를 제공하는 방법.
KR1020027010153A 2000-12-08 2001-12-05 인터넷 접근을 위한 분산 음성 인식 KR20020077422A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/733,880 2000-12-08
US09/733,880 US20020072916A1 (en) 2000-12-08 2000-12-08 Distributed speech recognition for internet access
PCT/IB2001/002317 WO2002046959A2 (en) 2000-12-08 2001-12-05 Distributed speech recognition for internet access

Publications (1)

Publication Number Publication Date
KR20020077422A true KR20020077422A (ko) 2002-10-11

Family

ID=24949491

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027010153A KR20020077422A (ko) 2000-12-08 2001-12-05 인터넷 접근을 위한 분산 음성 인식

Country Status (6)

Country Link
US (1) US20020072916A1 (ko)
EP (1) EP1364521A2 (ko)
JP (1) JP2004515859A (ko)
KR (1) KR20020077422A (ko)
CN (1) CN1235387C (ko)
WO (1) WO2002046959A2 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6785647B2 (en) * 2001-04-20 2004-08-31 William R. Hutchison Speech recognition system with network accessible speech processing resources
US8370141B2 (en) * 2006-03-03 2013-02-05 Reagan Inventions, Llc Device, system and method for enabling speech recognition on a portable data device
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US20110246187A1 (en) * 2008-12-16 2011-10-06 Koninklijke Philips Electronics N.V. Speech signal processing
CN104517606A (zh) * 2013-09-30 2015-04-15 腾讯科技(深圳)有限公司 语音识别测试方法及装置
US10375024B2 (en) * 2014-06-20 2019-08-06 Zscaler, Inc. Cloud-based virtual private access systems and methods
CN104462186A (zh) * 2014-10-17 2015-03-25 百度在线网络技术(北京)有限公司 一种语音搜索方法及装置
US10373614B2 (en) 2016-12-08 2019-08-06 Microsoft Technology Licensing, Llc Web portal declarations for smart assistants
US11886823B2 (en) * 2018-02-01 2024-01-30 International Business Machines Corporation Dynamically constructing and configuring a conversational agent learning model

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US20010014868A1 (en) * 1997-12-05 2001-08-16 Frederick Herz System for the automatic determination of customized prices and promotions
WO1999046920A1 (en) * 1998-03-10 1999-09-16 Siemens Corporate Research, Inc. A system for browsing the world wide web with a traditional telephone
US6269336B1 (en) * 1998-07-24 2001-07-31 Motorola, Inc. Voice browser for interactive services and methods thereof
US6600736B1 (en) * 1999-03-31 2003-07-29 Lucent Technologies Inc. Method of providing transfer capability on web-based interactive voice response services
US6591261B1 (en) * 1999-06-21 2003-07-08 Zerx, Llc Network search engine and navigation tool and method of determining search results in accordance with search criteria and/or associated sites

Also Published As

Publication number Publication date
EP1364521A2 (en) 2003-11-26
CN1476714A (zh) 2004-02-18
WO2002046959A3 (en) 2003-09-04
JP2004515859A (ja) 2004-05-27
WO2002046959A2 (en) 2002-06-13
US20020072916A1 (en) 2002-06-13
CN1235387C (zh) 2006-01-04

Similar Documents

Publication Publication Date Title
US20200312329A1 (en) Performing speech recognition using a local language context including a set of words with descriptions in terms of components smaller than the words
JP3519015B2 (ja) ネットワーク話し言葉語彙システム
US6188985B1 (en) Wireless voice-activated device for control of a processor-based host system
US6487534B1 (en) Distributed client-server speech recognition system
US8032383B1 (en) Speech controlled services and devices using internet
US9495956B2 (en) Dealing with switch latency in speech recognition
EP1181684B1 (en) Client-server speech recognition
US8886540B2 (en) Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20080221884A1 (en) Mobile environment speech processing facility
US20080221889A1 (en) Mobile content search environment speech processing facility
EP1246075A2 (en) Determining language for character sequence
US20060235694A1 (en) Integrating conversational speech into Web browsers
US20090030685A1 (en) Using speech recognition results based on an unstructured language model with a navigation system
US20090030696A1 (en) Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20030115289A1 (en) Navigation in a voice recognition system
CN101558442A (zh) 使用语音识别的内容选择
US20060190268A1 (en) Distributed language processing system and method of outputting intermediary signal thereof
KR20020077422A (ko) 인터넷 접근을 위한 분산 음성 인식
JP2005151553A (ja) ボイス・ポータル
CN111524508A (zh) 语音对话系统以及语音对话实现方法
US20020077814A1 (en) Voice recognition system method and apparatus
Hataoka et al. Robust speech dialog interface for car telematics service
JP2020112728A (ja) 情報処理装置および情報処理方法
KR20050077547A (ko) 보이스 엑스엠엘 문서에서 음성인식 그래마없이 음성인식및 녹음을 수행하는 방법

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
E801 Decision on dismissal of amendment
B601 Maintenance of original decision after re-examination before a trial
J301 Trial decision

Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20081120

Effective date: 20100415