KR20050083716A - 컴퓨터를 이용한 무선 오디오 통신 시스템 및 방법 - Google Patents

컴퓨터를 이용한 무선 오디오 통신 시스템 및 방법 Download PDF

Info

Publication number
KR20050083716A
KR20050083716A KR1020057005793A KR20057005793A KR20050083716A KR 20050083716 A KR20050083716 A KR 20050083716A KR 1020057005793 A KR1020057005793 A KR 1020057005793A KR 20057005793 A KR20057005793 A KR 20057005793A KR 20050083716 A KR20050083716 A KR 20050083716A
Authority
KR
South Korea
Prior art keywords
computer
file
user
data
component
Prior art date
Application number
KR1020057005793A
Other languages
English (en)
Inventor
크리스토퍼 프랑크 맥코넬
토마스 알란 플리트만
제니퍼 웨어 파커
채드 월터 빌마이어
Original Assignee
크리스토퍼 프랑크 맥코넬
채드 월터 빌마이어
제니퍼 웨어 파커
토마스 알란 플리트만
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 크리스토퍼 프랑크 맥코넬, 채드 월터 빌마이어, 제니퍼 웨어 파커, 토마스 알란 플리트만 filed Critical 크리스토퍼 프랑크 맥코넬
Publication of KR20050083716A publication Critical patent/KR20050083716A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/21Combinations with auxiliary equipment, e.g. with clocks or memoranda pads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/24Radio transmission systems, i.e. using radiation field for communication between two or more posts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/66Substation equipment, e.g. for use by subscribers with means for preventing unauthorised or fraudulent calling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 컴퓨터와 인터페이싱하는 방법 및 시스템을 제공한다. 일 실시예에서는 컴퓨터와 통신 장치간에 통신 연결이 구축된다. 사용자로부터의 오디오 신호를 수신하고 처리하여, 원하는 기능을 판정한다. 이 원하는 기능이 구두 응답을 필요로 하는지의 여부를 판정하고, 그런 경우에는, 사용자에 대한 구두 응답이 원격 통신 장치에 의해서 제공되어, 원하는 기능이 수행된다. 대체 실시예에서는 데이터 파일 내의 엔트리가 판독되고, 이 엔트리에 응답하여 컴퓨터와 원격 통신 장치간에 통신 연결이 개시된다. 이 엔트리에 따라서 오디오 통보가 발생되어 원격 통신 장치에 의해서 전송된다.

Description

컴퓨터를 이용한 무선 오디오 통신 시스템 및 방법{A SYSTEM AND METHOD FOR WIRELESS AUDIO COMMUNICATION WITH A COMPUTER}
관련 출원
이 출원은 미국 특허상표청에 2002년 10월 1일에 출원되고 발명의 명칭이 "A System and Method for Wireless Audio Communication with a Computer"인 가출원 번호 60/415,311호와, 2003년 3월 5일에 출원되고 발명의 명칭이 "A System and Method for Wireless Audio Communication with a Computer"인 가출원 번호 60/457,732호를 우선권으로 주장하는 것이며, 이들의 내용은 전체가 참고로 이 명세서에 인용되고 있다.
본 발명은 컴퓨터 인터페이스에 관한 것이다. 구체적으로, 본 발명은 오디오 통신에 의해서 컴퓨터와 인터페이싱하는 시스템 및 방법에 관한 것이다. 보다 구체적으로, 본 발명은 오디오 입력을 수신하는 음성 인식 시스템 및 방법과, 컴퓨터 애플리케이션과 상호작용하는 모듈과, 오디오 출력을 전송하는 음성 합성 모듈에 관한 것이다.
컴퓨터를 이용하여 이상 생활에 영향을 미치는 정보를 저장하고 액세스하는 일반 대중이 점차 늘고 있다. 약속, 작업, 계약 등과 같은 개인 정보와, 스프레드시트, 데이터베이스, 워드 프로세싱 문서 등과 같은 기업 데이터 등은 이러한 정보를 쉽게 업데이트, 조성 및 액세스하기 때문에 컴퓨터에 특히 저장할 수 있는 모든 유형의 정보이다. 또한, 컴퓨터는 인터넷 또는 다른 네트워크로부터 실시간으로 또는 거의 실시간으로 주식 시세, 일기 예보 등의 시간 변동 정보에 원격으로 액세스할 수 있다. 이들 수행하는데 필요한 모든 작업을 행하기 위해서, 컴퓨터는 매우 복잡하고 컴퓨팅 능력이 강해지고 있다. 따라서, 사용자가 자신의 컴퓨터를 액세스하는 동안에, 다시 말하면, 사용자가 집 또는 사무실에 있는 동안에, 사용자는 이러한 컴퓨팅 능력에 쉽게 액세스하여 원하는 작업을 수행할 수 있다.
그러나, 많은 상황에서, 사용자는 여행하는 동안에 또는 단순히 컴퓨터로부터 떨어져 있는 동안에 이러한 정보에의 액세스를 필요로 하는 경우가 있을 것이다. 불행하게도, 컴퓨터의 컴퓨팅 능력이 막강할수록 이동성은 없다. 예컨대, 데스크톱 컴퓨터는 고정 위치에 배치되도록 설계되고, 따라서, 이동형 애플리케이션에는 적합하지 않다. 랩톱 컴퓨터는 데스크톱 컴퓨터보다 휴대성이 매우 우수하고 그에 필적하는 컴퓨팅 능력을 보유하고 있지만, 가격이 비싸고 아직도 다루기가 수월하지 않다. 또한, 무선 인터넷 연결은 비용이 비싸고 아직 널리 이용되고 있지 않으며, 이러한 랩톱에 대한 휴대 전화 연결은 현재의 인터넷 표준에 의하면 저속이다. 또한, 원격 인터넷 연결을 하는 것은 사용자가 집 또는 사무실에서 하는 인터넷 연결의 두배가 되어, 부대 비용이 두배로 든다.
종래에, 개인 휴대 단말기("PDA")는 사용자의 정보에 액세스하는데 사용될 수 있다. 이러한 PDA는 크래들 또는 IR 빔을 통해서 컴퓨터와 간헐적으로 연결할 수 있고, 따라서 컴퓨터를 이용하여 정보를 업로드 또는 다운로드할 수 있다. 일부 PDA는 무선 연결을 통해서 정보를 액세스할 수 있고, 또는 휴대 전화로서의 역할도 할 수 있다. 그러나, PDA는 많은 단점을 갖고 있다. 예컨대, PDA는 비싸고, 흔히 사용자의 컴퓨터에 이미 존재하는 컴퓨팅 능력의 일부를 배가시키며, 때로는 비싼 서비스에 대한 가입을 필요로 하고, 흔히 기지국 또는 퍼스널 컴퓨터와의 동기를 필요로 하며, (PDA의 사용법을 배운다는 점에서 그리고 PDA의 화면이 작고 PDA의 입력 장치는 양손을 필요로 한다는 점에서) 사용상의 어려움이 있고, 시용자의 컴퓨터에 비해 제한된 기능을 갖는다. 이동 컴퓨팅 능력의 범위가 확대될수록 PDA의 비용과 복잡함도 증가한다. 또한, 종래의 PDA는 사용자의 정보를 내장하기 때문에, PDA는 도난에 의한 데이터 손실 또는 PDA 분실의 우려가 따라다니다.
휴대 전화의 사이즈, 비용 및 휴대성이 향상됨에 따라서, 휴대 전화의 사용은 거의 일반적인 것이 되고 있다. 종래의 일부 휴대 전화는 오디오 커맨드를 이용하여 특정 사람의 호출 등의 간단한 작업을 수행하는 음성 구동 기능을 제한하고 있었다. 마찬가지로, 일부 자동차 및 진보된 휴대 전화는 간단한 커맨드를 수신한다고 하는 배경에서 사운드를 인식할 수 있다. 이러한 종래의 시스템에서, 관련 소프트웨어는 원하는 사람의 호출 등의 원하는 기능을 실행할 수 있게 하는 알려진 커맨드(즉, 사운드)를 간단히 식별한다. 다시 말하면, 종래의 시스템은 구두 단어의 의미를 판정하는 일 없이 소정의 사운드를 소정의 원하는 기능에 매칭시킨다. 마찬가지로, e-메일 메시지를 휴대 전화에 의해서 사용자에게 구두 전달될 수 있게 하는 종래의 소프트웨어 애플리케이션도 존재한다. 이러한 애플리케이션에서, 휴대 전화는 단순히 커맨드를 그 소프트웨어에 중계하여 메시지를 재생시킨다.
음성을 인식할 수 있는 종래의 소프트웨어는 서버를 기반으로 하는 것과 주료 컴퓨터와 같은 위치에 존재하는 사용자에 대한 것 중 어느 하나이다. 예컨대, 콜 센터의 음성 인식 시스템은 시스템의 대형 사이즈와 복잡함 때문에 강력한 서버에서 실행되어야 할 필요가 있다. 이러한 시스템은 다양한 억양과 발성 패턴을 갖는 사람들로부터의 음성을 인식할 수 있어야 하기 때문에 대형이고 부분적으로 복잡하다. 이러한 시스템은 복잡한 성질에도 불구하고, 아직도 메뉴 방식에 의한 응답에 제한되는 것이 통상적이다. 다시 말하면, 통상적인 음성 인식 소프트웨어 패키지를 호출하는 호출자는, 원하는 요구를 단순히 구두로 말하여 시스템이 그 요구를 인식하게 할 수 있는 것이 아니라, 메뉴 내에서 하나 이상의 레이어를 진행하여 원하는 기능을 입수하여야 한다. 퍼스널 컴퓨터에서 실행하도록 설계된 종래의 음성 인식 소프트웨어는 주로 지시에 관한 것이고, 이러한 소프트웨어는, 사용자가 컴퓨터 앞에 있는 동안에 사용되어 그 소프트웨어에 의해서 판정되는 단순한 메뉴 항목에 액세스하는 것으로 더욱 제한된다. 따라서, 종래의 음성 인식 소프트웨어는 키보드나 마우스와 같은 통상의 입력 장치에 대한 대체물 또는 보완물로서 작동하는 기능을 하는데 불과하다.
더욱이, 종래의 PDA, 휴대 전화 및 랩톱 컴퓨터는 각각의 것이 대부분 다른 것의 기능을 수행할 수 없다는 단점을 갖는다. 진보된 무선 장치는 PDA와 휴대 전화의 기능을 결합하고 있지만, 매우 비싸다. 따라서, 사용자는 PDA, 휴대 전화 및 경우에 따라서는 심지어 랩톱의 기능을 수행할 수 있는 장치를 매우 고가로 구입하여야 하지만, 사용자는 개개의 휴대 전화, PDA 및/또는 랩톱을 구입할 확률이 높을 것이다.
따라서, 컴퓨터와 통신하는 휴대용 수단이 요구된다. 구체적으로, 컴퓨터와 구두로 통신하여 휴대 전화와 같은 저렴한 휴대용 장치에 의해서 정보를 얻는 시스템 및 방법이 요구된다. 보다 구체적으로, 컴퓨터 상에서 동작하는 다수의 컴퓨팅 프로그램을 동작적으로 상호 연결하여 커맨드를 원격 컴퓨터에 전송하고 또 원격 컴퓨터로부터 정보를 수신하는 통합 시스템을 제공하는 시스템 및 방법이 요구된다.
상기 "발명의 상세한 설명"과 하기 "실시예"는 "청구의 범위"와 연계하여 통독하면 더욱 잘 이해된다. 본 발명의 설명의 목적상, 도면에서는 본 발명의 예시적인 실시예를 보여주고 있지만, 본 발명은 공개된 특정한 방법 및 도구에 한정되지 않는다.
도 1은 본 발명의 양태가 구현될 수 있는 예시적인 컴퓨터를 보여주는 도면이다.
도 2a 내지 도 2c는 본 발명의 양태가 구현될 수 있는 예시적인 컴퓨터 구성을 보여주는 도면이다.
도 3은 본 발명의 실시예에 따른 예시적인 소프트웨어 구성을 보여주는 블록도이다.
도 4a 내지 도 4c는 본 발명의 실시예에 따른 사용자 개시 트랜잭션의 예시적인 방법을 보여주는 흐름도이다.
도 5는 본 발명의 실시예에 따른 컴퓨터 개시 트랜잭션의 예시적인 방법을 보여주는 흐름도이다.
도 6a 내지 도 6f는 본 발명의 실시예에 따른 예시적인 인터페이스 프로그램을 보여주는 실행화면(screenshot)이다.
도 7a 및 도 7b는 본 발명의 실시예에 따른 예시적인 스프레드시트를 보여주는 실행화면이다.
전술한 제한 및 단점에 비추어, 컴퓨터에 저장된 데이터와 상호작용하는 방법 및 시스템이 제공된다. 방법에 있어서는, 원격 통신 장치에 의해서 컴퓨터와 사용자간의 통신 연결이 달성된다. 원격 통신 장치에 의해서 사용자로부터의 구두 발성 또는 오디오 신호가 수신된다. 이 구두 발성 또는 오디오 신호는 원하는 기능을 판정하도록 처리되고, 이 원하는 기능은 구두 발성에 따라서, 컴퓨터에 저장된 데이터에 대해서 수행된다.
시스템에 있어서는, 통신 채널은 컴퓨터와 원격 통신 장치간의 통신을 가능하게 하고, 이 통신 채널은 컴퓨터 또는 원격 통신 장치에 의해서 개시된다. 음성 인식 컴포넌트는 오디오 입력을 수신하여 문자 형태로 변환시킨다. 문자-음성 컴포넌트는 문자 데이터를 구두 형태로 변환시키고, 파일 인터페이스 컴포넌트는 내부에 저장된 상기 데이터를 갖는 파일과 상호작용한다. 인터페이스 프로그램은 통신 채널에 의해서 오디오 입력을 수신하고, 음성 인식 컴포넌트로 하여금 구두 발성을 변환시켜 원하는 기능을 판정하게 하며, 파일 인터페이스로 하여금 원하는 기능에 따라서 상기 파일과 상호작용하게 하고, 문자-음성 컴포넌트로 하여금 구두 형태의 원하는 작용의 결과 또는 확인을 원격 통신 장치에 제공하게 하며, 및/또는 상기 원하는 작용이 수행되게 한다.
여기에서는 원격 통신 장치를 오디오 커맨드에 의해서 컴퓨터와 동작적으로 연결하는 시스템 및 방법을 설명한다. 본 발명의 일 실시예에서, 예컨대 휴대 전화, 무선 송수신기, 마이크로폰, 유선 전화 등의 원격 통신 장치는 오디오 또는 구두 커맨드를 사용자의 컴퓨터에 전송하는데 사용된다. 다른 실시예에서, 사용자의 컴퓨터는 동일한 원격 통신 장치에 의해서 사용자에게 구두 고시(spoken announcement)를 개시한다. 사용자의 컴퓨터 상에서 실행하는 인터페이스 프로그램은, 예컨대 사용자의 구두 발성을 인식하는 음성 인식 소프트웨어와, 약속 및/또는 e-메일 소프트웨어, 스프레드시트, 데이터베이스, 인터넷 또는 다른 네트워크 등을 사용자와 통신하게 하는 문자-음성 소프트웨어 등을 동작적으로 연결시킨다. 또한, 인터페이스 프로그램은 컴퓨터 I/O 포트와 인터페이싱하여, 액츄에이터, 센서, 팩스 머신, 전화 장치, 스테레오 장치, 가전 제품 등의 외부 전자 장치와 통신할 수 있다. 이와 같이 하여, 본 발명의 일 실시예에 의해서 사용자는 휴대용 통신 장치를 이용하여 어느 장소에서도 자신의 컴퓨터와 통신할 수 있다는 것을 이해할 것이다.
예컨대, 일 실시예에서, 사용자는 휴대 전화를 작동시켜, 자신의 컴퓨터를 호출할 수 있다. 통신 달성 시에, 사용자는 소프트웨어 컴포넌트가 액세스하도록 구성된 모든 유형의 정보를 요구할 수 있다. 다른 실시예에서, 컴퓨터는 이러한 휴대 전화에 의해서 사용자와 접촉하여, 예컨대 약속 등을 사용자에게 알릴 수 있다. 또한, 휴대 전화는 음성 인식을 수행하거나 사용자가 액세스하기를 원하는 모든 사용자 정보를 포함할 필요가 없다는 것도 이해할 것이다. 실제로, 종래의 "기성품" 휴대 전화 등은 본 발명의 일 실시예에 따른 소프트웨어를 실행하는 컴퓨터와 함께 사용될 수 있다. 그 결과로서, 본 발명의 일 실시예에 의해서 사용자는 어느 장소에서도 그리고 폭넓고 다양한 통신 장치를 이용하여 자신의 컴퓨터의 확장된 컴퓨팅 능력을 이용할 수 있다.
이하, 일 실시예에 따른 이러한 컴퓨터의 일 예를 도 1과 연계하여 설명한다. 마찬가지로, 컴퓨터 및 하나 이상의 원격 통신 장치의 예시적인 장치 구성은 도 2a 내지 도 2c와 연계하여 이하에 설명된다. 전술한 바와 같이, 인터페이스 프로그램은 본 발명의 일 실시예의 구현의 목적상 소프트웨어 및/또는 하드웨어를 동작적으로 연결시키고, 이러한 프로그램 및 소프트웨어의 예시적인 구성은 도 3과 연계하여 후술된다. 사용자 개시 트랜잭션의 예시적인 방법은 도 4a 내지 도 4c와 연계하여 후술되고, 컴퓨터 개시 트랜잭션의 예시적인 방법은 도 5와 연계하여 후술된다. 도 6a 내지 도 6f는 본 발명의 일 실시예에 따른 소프트웨어 및/또는 하드웨어 컴포넌트 및 프로그램의 예시적인 구성을 보여준다. 마지막으로, 도 7a 및 도 7b는 일 실시예에 따른 스프레드시트의 예시적인 구성을 보여준다. 다음의 설명에서, 이러한 소프트웨어 및/또는 하드웨어 컴포넌트 및 통신 장치를 구현하는 세부, 및 상호 동작의 기술적 양태는 당업자에게 잘 알려져 있고, 따라서 여기에서는 설명을 명료하게 하기 위해서 이러한 문제에 대해서는 생략한다.
이제 도 1로 가서, 본 발명의 양태를 구현할 수 있는 컴퓨터(100)가 나타나 있다. 컴퓨터(100)는 여기에서 설명되는 방법들을 수행할 수 있는 범용 또는 어떠한 특수용 컴퓨팅 장치일 수 있다. 일 실시예에서, 컴퓨터(100)는 CPU 하우징(102), 키보드(104), 디스플레이 장치(106) 및 마우스(108)를 포함한다. 컴퓨터(100)는 본 발명의 일 실시예에 일치하도록 유지하면서 다양한 방법으로 구성될 수 있다는 것을 이해할 것이다. 예컨대, 컴퓨터(100)는 랩톱 컴퓨터의 경우에서와 같이, 디스플레이 장치(106)와 CPU 하우징(102)을 일체화한 통합 장치를 가질 수 있다. 다른 실시예에서, 컴퓨터(100)는 키보드(104) 및/또는 마우스(108) 대신에 또는 이들과 연계하여 사용자 입력을 수신하는 대체 수단을 가질 수 있다. 일 실시예에서, 인터페이스 프로그램, 소프트웨어 컴포넌트 등의 프로그램(130)은 디스플레이 장치(106)에 표시된다. 이러한 인터페이스 프로그램 및 소프트웨어 프로그램은 도 3 및 도 6과 연계하여 후술될 것이다.
일 실시예에서, 컴퓨터(100)는, 예컨대 인터넷, 인트라넷 등의 네트워크(120)에도 동작적으로 연결된다. 컴퓨터(100)는 데이터 프로세싱을 하는 프로세서(112)와, 데이터를 저장하는 메모리(110)와, 네트워크(120) 및/또는 전화선 등의 다른 통신 매체와 통신하는 입출력부(I/O)(114)를 더 포함한다. 컴퓨터(100)의 프로세서(112)는 단일 프로세서일 수도 있고, 상호연결된 복수의 프로세서일 수도 있다는 것을 이해할 것이다. 메모리(110)는, 예컨대 RAM, ROM, 하드드라이브, CD-ROM, USB 스토리지 장치 등일 수도 있고, 또는 이러한 유형의 메모리의 어떠한 조합일 수도 있다. 또한, 메모리(110)는 컴퓨터(100)의 내부에 위치하는 것일 수도 있고, 내부에 위치하는 것일 수도 있다. 입출력부(I/O)(114)는 사용자 또는 외부 장치를 컴퓨터(100)와 통신할 수 있게 하는 어떠한 하드웨어 및/또는 소프트웨어 컴포넌트이어도 좋다. 입출력부(I/O)(114)는 내부 및/또는 외부에 위치한 복수의 장치이어도 좋다.
이제 도 2a 내지 도 2c로 가서, 본 발명의 일 양태를 구현할 수 있는 예시적인 컴퓨터 구성의 도면이 나타나 있다. 도 2a에는, 도 1과 연계하여 전술한 바와 같이, CPU 하우징(102), 키보드(104), 디스플레이 장치(106) 및 마우스(108)를 갖는 컴퓨터(100)를 나타내고 있다. 또한, 마이크로폰(202)과 스피커(203)는 컴퓨터(100)에 동작적으로 연결된다. 이해될 수 있는 바와 같이, 마이크로폰(202)은 사운드 웨이브를 수신하여, 이러한 사운드 웨이브를 컴퓨터(100)에 의해서 해석될 수 있는 전기 신호로 변환시키도록 적응된다. 스피커(203)는 반대 기능을 수행하고, 이것에 의해서, 컴퓨터(100)로부터의 전기 신호는 사운드 웨이브로 변환된다. 이해될 수 있는 바와 같이, 사용자는 마이크로폰(202)을 향해서 구두로 말하여, 커맨드 또는 요구를 컴퓨터(100)에 발송할 수 있고, 컴퓨터(100)는 스피커(203)에 의해서 응답할 수 있다. 역으로, 컴퓨터(100)는, 선언문을 만들거나 스피커(203)에 의해서 사운드를 재생하는 것, 메시지를 디스플레이 장치(106)에 표시하는 것 등에 의해서 사용자와 "대화"를 개시할 수 있다. 도 2a에서 볼 수 있는 바와 같이, 옵션의 코드형 또는 코드리스형 전화 또는 스피커폰은, 키보드(104), 108, 마이크로폰(202) 및/또는 스피커(203) 중 어느 것에 추가 또는 대신하여 예컨대 전화 게이트웨이, 예컨대 미국 캘리포니아주에 소재하는 Actiontec Electronics, Inc.에서 제조한 InternetPhoneWizard에 의해서 컴퓨터(100)에 연결될 수 있다. 이해될 수 있는 바와 같이, 전화(210), 일 실시예에서, 예컨대 종래의 코드형 또는 코드리스형 전화 또는 스피커폰은 마이크로폰(202) 및 스피커(203)의 원격 버전으로서 기능하고, 이것에 의해서, 컴퓨터(100)와 원격적으로 상호작용할 수 있다. 컴퓨터(100)에 연결하도록 구체적으로 설계된 전화(210)의 일 예로는 미국 일리노이주에 소재하는 Elk Grove Village사의 Clarisys i750 인터넷 전화가 있다.
도 2b에서도, 도 1과 연계하여 전술한 바와 같이 CPU 하우징(102), 키보드(104), 디스플레이 장치(106) 및 마우스(108)를 갖는 컴퓨터(100)가 나타나 있다. 또한, 컴퓨터(100)는 로컬 전화(206)에 동작적으로 연결된다. 이해될 수 있는 바와 같이, 일 실시예에서 컴퓨터(100)는 외부 전화를 필요로 하는 일 없이 전화선에 직접 연결된다. 컴퓨터(100)는, 예컨대 [설명의 편의상, 도 2b에는 나타내지 않았지만 로컬 전화(206)를 대체하는] 입출력부(I/O)(114)에 의해서 전화선으로부터 신호를 수신하도록 적응될 수 있다. 이러한 실시예에서, 입출력부(I/O)(114)는 음성 모뎀 또는 그와 등가의 장치이다. 또한, 옵션의 원격 전화(204) 및/또는 휴대 전화(208)도 역시 로컬 전화(206) 또는 음성 모뎀에 동작적으로 연결될 수 있다. 또 다른 실시예에서, 로컬 전화(206)는 휴대 전화이고, 컴퓨터(100)와의 통신은 휴대 전화 통신망을 통해서 행해진다.
예컨대, 일 실시예에서, 사용자는 원격 전화(204) 또는 휴대 전화(208)에 의해서 로컬 전화(206)에 대응하는 전화 번호를 호출할 수 있다. 이러한 실시예에서, 컴퓨터(100)는 미리 판정된 신호 등에 대한 모든 인입 호출을 모니터링하고, 이러한 신호의 검출 시에, 컴퓨터(100)는 호출로부터의 이러한 정보를 인터페이스 프로그램 또는 다른 소프트웨어 컴포넌트에 전달한다. 이와 같이 하여, 컴퓨터(100)는 호출에 연결된 때에, 사용자로부터의 구두 커맨드 또는 요구를 수신하여 응답을 발송할 수 있다. 역으로, 컴퓨터(100)측에서, 원격 전화(204) 또는 휴대 전화(208)의 사용자를 호출함으로써 사용자와의 대화를 개시할 수 있다. 이해될 수 있는 바와 같이, 컴퓨터(100)는 전화 다이얼링 기능을 가질 수 있고, 또는 존재한다면 로컬 전화(206)를 이용하여 동일한 기능을 달성할 수 있다.
전화(204~208)는, 전기 신호(아날로그 형태일 수도 있고 디지털 형태일 수도 있음)로 변환되어 유선으로 또는 예컨대 휴대 전화 통신망 등에 의해서 무선으로 전송되는 사운드를 어떤 거리를 두고 재생시키는 어떠한 유형의 도구이어도 좋다는 것을 이해할 것이다. 이해될 수 있는 바와 같이, 컴퓨터(100)에 원격으로 액세스하는 용도로 전화를 이용하는 실시예의 사용법은 비교적 낮은 가격과 사용자가 핸드셋을 용이하게 이용할 수 있는 것을 보증한다. 또한, 전화와 관련된 주변 장치는 어떠한 유형이어도 좋고 몇 개이어도 좋다. 어떠한 유형의 주변 장치라도 본 발명의 일 실시예에 동등하게 부합된다. 또한, 전화(204~208)로부터 수신된 신호의 신호 강도 및/또는 명료성을 높일 수 있도록, 이러한 전화(204~208) 등의 전화에서 또는 컴퓨터(100)에서 어떠한 유형의 필터링 또는 노이즈 제거 하드웨어 또는 소프트웨어가 이용되어도 좋다.
로컬 전화(206)는, 예컨대 가정 환경 내에 유지되면서 컴퓨터(100)로부터 멀리 떨어진 장소에서 이용하는 코드형 또는 코드리스형 전화이어도 좋다. 사무실 환경에서와 같은 대체 실시예에서, 본 발명과 연계하여 다수의 전화선 및/또는 장거리 코드리스 전화가 사용되어도 좋다. 여기에서 본 발명의 일 실시예는 1명의 사용자가 1대의 전화(204~208)를 작동시키는 배경에서 설명되고 있지만, 사용자 및 전화(204~208)의 수는 몇 개이어도 좋고, 이러한 수는 본 발명의 일 실시예에 부합되는 것이다. 전술한 바와 같이, 로컬 전화(206)는 휴대 전화이어도 좋고, 휴대 전화 통신망을 통해서 통신할 수 있는 다른 장치이어도 좋다.
페이저, 푸시 투 토크형 라디오 등의 장치는 전화(204~208)에 추가 또는 대체하여 컴퓨터(100)에 연결될 수 있다. 이해될 수 있는 바와 같이, 사용자 정보의 전부 또는 대부분은 컴퓨터(100)에 저장된다. 따라서, 예컨대 전화(204~208)와 같은 원격 통신 장치가 분실되더라도, 사용자는 데이터를 손실하는 일 없이 그 원격 통신 장치를 신속하고 저렴하게 대체시킬 수 있다.
이제 도 2c로 가서, 이 경우에도, 도 1과 연계하여 전술한 바와 같이 CPU 하우징(102), 키보드(104), 디스플레이 장치(106) 및 마우스(108)를 갖는 컴퓨터(100)가 나타나 있다. 도 2b와 연계하여 전술한 실시예와는 대조적으로, 컴퓨터(100)는 네트워크(120)에 의해서 원격 전화(204) 및/또는 휴대 전화(208)에 동작적으로 연결된다. 이해될 수 있는 바와 같이, 컴퓨터(100)는, 예컨대 다이얼업 모뎀, DSL, 케이블 모뎀, 위성 연결, T1 연결 등에 의해서 네트워크(120)에 동작적으로 연결될 수 있다. 예컨대, 사용자는 "웹 전화" 번호, 컴퓨터(100)에 할당된 종래의 전화 번호 등을 호출하여, 네트워크(120)에 의해서 컴퓨터(100)에 연결할 수 있다. 마찬가지로, 컴퓨터(100)는 네트워크(120)에 의해서 원격 전화(204) 및/또는 휴대 전화(208)에 연결할 수도 있다. 이러한 실시예에서, 컴퓨터(100)는 네트워크(120)에 액세스하도록 내장 장치를 갖거나 전화 다이얼링 기능을 이용하여 동작적으로 통신한다는 것을 이해할 것이다. 이러한 기능은 하드웨어 컴포넌트 또는 소프트웨어 컴포넌트, 또는 이들의 조합으로 구성될 수 있으며, 도 4b와 연계하여 더욱 상세하게 설명될 것이다.
이러한 전화 통신 구성을 할 수 있는 방법의 일 예는 VoIP(Voice Over Internet Protocol) 연결에 의한 것이 있다. 이러한 실시예에서는, 원격 전화가 컴퓨터(100)를 직접 다이얼링하여, 네트워크(120)의 일 양태에 의해서 인터페이스 프로그램에 연결할 수 있다. 이러한 인터페이스 프로그램은 도 3 및 도 6a 내지 도 6f와 연계하여 더욱 상세하게 후술된다. 대체 실시예에서는 컴퓨터(100)와의 통신에 세션 개시 프로토콜(SIP) 전화(204~208), 또는 심지어 인스턴트 메시징 기술 등이 이용될 수도 있다는 것을 이해할 것이다.
따라서, 본 발명의 양태를 구현할 수 있는 사용자 컴퓨터(100)의 몇 가지 예시적인 구성이 제공된다. 이해될 수 있는 바와 같이, 사용자를 컴퓨터(100)에 동작적으로 연결시킴으로써 사용자가 이러한 컴퓨터(100)와 구두로 통신할 수 있게 하는 어떠한 방법도 본 발명의 일 실시예에 동등하게 부합되는 것이다.
따라서, 이해될 수 있는 바와 같이, 컴퓨터(100)와 원격 통신하는 어떠한 수단도 본 발명의 일 실시예에 동등하게 부합된다. 이러한 컴퓨터(100)에 대해서, 사용되는 통신 매체의 유형에 따라서 이러한 원격 통신 장치와의 통신을 효율 좋게 하는 추가의 장비가 필요할 수도 있다. 예컨대, 음성 인식 엔진의 입력은 마이크로폰과 같은 표준 입력 장치로부터 수신되는 것이 일반적이다. 마찬가지로, 문자-음성 엔진의 출력은 스피커와 같은 표준 출력 장치에 전송되는 것이 일반적이다. 동일한 방법으로, 휴대 전화와 같은 통신 장치는 (헤드셋) 마이크로폰으로부터 입력을 수신하여 (헤드셋) 스피커에 출력을 전송할 수 있다. 따라서, 본 발명의 일 실시예는 음성 인식 엔진과 컴퓨터에 직접 연결된 통신 장치[예컨대, 도 2b의 전화(206)] 사이의 연결을 제공하므로, 장치의 출력(일반적으로 스피커를 향해 가는 것)은 음성 인식 엔진의 입력(일반적으로 마이크로폰으로부터 오는 것)에 전송된다. 마찬가지로, 장치가 오디오 출력을 원격 호출자에게 전달할 수 있도록, 문자-음성 엔진의 출력(통상, 스피커를 향해 가는 것)과 장치의 입력 사이의 연결이 필요하다.
기본 실시예에서, 이러한 전송은 (도 2b에서와 같이) 패치 코드를 이용하여 외부에 있는 전화(206)와 컴퓨터 사이에 달성된다. 그러나, 일부 실시예에서, 신호는 전송을 필요로 할 뿐만 아니라, 컨디셔닝도 필요로 한다. 예컨대, 오디오 신호가 아날로그인 경우에, 일 실시예는 가변 저항, 볼륨 제어 등을 이용하여 행해질 수 있는 임피던스 정합을 필요로 한다. 오디오 신호가 디지털인 경우에는 형태(포맷)[예컨대, 샘플 레이트, 샘플 비트(블록 사이즈), 및 채널수]가 컨디셔닝되어야 한다.
이러한 신호 전송 및 컨디셔닝의 다른 실시예는 인터페이스 프로그램과 연계하여 컴퓨터(100)에서 동작하는 "소프트폰" 소프트웨어를 포함한다. 이러한 소프트웨어는 세션 개시 프로토콜(SIP) 표준 또는 H.323 등의 다른 프로토콜을 이용하여 컴퓨터(100)를 통해 전화 호출을 걸고 수신하는 VoIP 전화 통신을 용이하게 한다. 이러한 소프트웨어의 일 예로는 캐나다 브리티시 콜럼비아의 버나비에 소재하는 Xten Networks, Inc,에서 제조한 X-PRO가 있다. 소프트폰 소프트웨어는 로컬 스피커 또는 헤드셋에 의해서 사용자에게 전화 사운드를 전송하는 것이 일반적이며, 로컬 마이크로폰에 의해서 전화 음성을 수신하는 것이 일반적이다. 컴퓨터(100)는 다수의 이용가능한 오디오 장치를 갖는 경우도 있으므로, 소프트폰 소프트웨어에 의해서 사용되는 특정 오디오 장치는 사용자 설정으로서 선택될 수 있는 경우가 많다. 전술한 바와 같이, 문자-음성 소프트웨어는 로컬 스피커 또는 헤드셋에 의해서 사운드(출력)를 로컬 사용자에게 전송하는 것이 일반적이고, 음성 인식 소프트웨어는 로컬 마이크로폰에 의해서 음성(입력)을 수신하는 것이 일반적이다. 따라서, 소프트폰 소프트웨어는 본 발명의 일 실시예에 의해서 문자-음성 소프트웨어 및 음성 인식 소프트웨어에 링크되어야 한다. 이러한 링크는 하드웨어 또는 소프트웨어를 포함하는 여러 가지 방법 또는 이들의 조합으로 달성될 수 있다. 일 실시예에서, 하드웨어 오디오 장치는 각각의 애플리케이션에 할당되고, 적절한 출력 포토 및 입력 포트는 패치 케이블을 이용하여 링크된다. 이러한 배치 구성에 의해서, 오디오는 소프트폰으로부터 음성 인식 소프트웨어로 흘러가고, 또는 문자-음성 소프트웨어로부터 소프트폰 소프트웨어로 흘러갈 수 있다. 이해될 수 있는 바와 같이, 이러한 배치 구성은 스피커 출력 포트를 마이크로폰 입력 포트에 연결시키는 것을 수반하고, 따라서 일 실시예에서는 패치 케이블의 임피던스 정합을 이용하여 사운드 왜곡을 완화시킨다.
다른 실시예는 특수 소프트웨어를 이용하여 애플리케이션들간의 오디오 신호들을 링크시킨다. 이러한 소프트웨어의 일 예로는 Virtual Audio Cable(Eugene V. Muzychenko가 만든 소프트웨어)이 있으며, 이 소프트웨어는 오디오 케이블을 모두 소프트웨어로 에뮬레이팅하므로, 오디오 신호를 송수신하는 상이한 소프트웨어 프로그램들을 쉽게 연결시킬 수 있다. 이러한 일 실시예에서, 2개의 Virtual Audio Cable을, 오디오가 소프트폰으로부터 음성 인식 소프트웨어로 흘러가고, 또 문자-음성 소프트웨어로부터 소프트폰 소프트웨어로 흘러가게 할 수 있도록 구성할 수 있다. 또 다른 실시예에서, 소프트폰 소프트웨어, 문자-음성 소프트웨어 및 음성 인식 소프트웨어는 수정될 수도 있고, 다른 경우에는 통합될 수도 있으므로, 외장형의 오디오 전송 장치에 대한 요구는 완전히 제거된다.
이제 도 3으로 가서, 본 발명의 일 실시예에 따른 예시적인 소프트웨어 및/또는 하드웨어 구성의 블록도가 나타나 있다. 이해될 수 있는 바와 같이, 본 발명의 일 실시예에서, 이러한 소프트웨어는 컴퓨터(100)에 의해서 실행된다. 이러한 방법에서는, 도 2a 내지 도 2c(도 3에서는 명료하게 나타나지 않음)와 연계하여 전술한 바와 같이, 예컨대 전화(204~210) 등의 원격 통신 장치에 이러한 소프트웨어를 구현하고자 하는 시도보다는 오히려, 이러한 컴퓨터(100)의 컴퓨팅 능력이 활용된다.
도 3에 나타낸 각각의 소프트웨어 및/또는 하드웨어 컴포넌트는 적어도 하나의 다른 소프트웨어 및/또는 하드웨어 컴포넌트에 (점선으로 나타낸 바와 같이) 동작적으로 연결된다는 것을 이해할 것이다. 또한, 소프트웨어 및/또는 하드웨어 컴포넌트의 다른 구성도 실시예와 부합될 수 있으므로, 도 3은 본 발명의 일 실시예에 불과하다는 것을 이해할 것이다. 도 3에 나타낸 소프트웨어 컴포넌트는 스탠드어론형 프로그램, 애플리케이션 프로그램 인터페이스(API) 등일 수 있다는 것을 이해할 것이다. 중요한 것은, 일부 소프트웨어 컴포넌트는 이미 존재하는 것들일 수 있고, 따라서 실질상 비용을 낮추고, 복잡함을 경감시키녀, 하드디스크의 공간을 절약하고 효율을 향상시킨다는 것이다.
전화 입력부(302)는 도 2a 내지 도 2c와 연계하여 전술한 바와 같은 입력 장치 등을 통해서 사용자가 구두 발성 또는 오디오 커맨드(예컨대, DTMF 신호)에 의해서 컴퓨터(100)와 통신할 수 있게 하는 유형의 컴포넌트이다. 마찬가지로, 전화 출력부(304)는 전기 신호를 사용자가 들을 수 있는 사운드로서 출력하도록 설치된 것이다. 전화 입력부(302)와 전화 출력부(304)는 전화 또는 네트워크(120)에 의해서 연결을 구축하는데 필요한 기능을 포함하여, 신호를 수신하여 이러한 전화 또는 네트워크(120)에 송신하는 등의 다른 목적에 맞게 적응될 수 있다는 것을 이해할 것이다. 전화 입력부(302)와 전화 출력부(304)는 컴퓨터(100)의 내장형 하드웨어일 수도 있고 외장형 하드웨어일 수도 있으며, 또는 소프트폰 애플리케이션 및 관련 네트워크 인터페이스 카드 등의 소프트웨어일 수도 있다.
음성 인식 소프트웨어(310)도 역시 제공된다. 음성 인식 소프트웨어(310)는 이름이 암시하는 바와 같이, 사용자가 말하는 구두 발성을 나타내는 전자 신호, 예컨대 전화 입력부(302)가 수신하는 신호를 수신하여, 이러한 구두 발성을 해독하도록 적응된다. 음성 인식 소프트웨어(310)는, 예컨대 특수용 또는 기성품의 음성 인식 소프트웨어 유형일 수 있다. 이러한 음성 인식 소프트웨어는 더욱 양호하게 최적화되는 음성 인식을 위한 사용자 트레이닝 기능을 포함할 수 있다. 또한, 사용자와 통신하는 문자-음성 엔진(315)도 역시 예시되어 있다. 일 실시예에서, 이러한 문자-음성 엔진(315)은 전자 데이터로부터, 사용자에게 전송될 구두 선언문을 발생시킨다. 도 3에서 보여주는 실시예에서, 자연 언어 처리 모듈(325)과 자연 언어 합성 모듈(330)은 각각 구두 선언문을 해석하고 구축하도록 제공된다.
사용자 데이터(320)는, 컴퓨터(100)에 저장되거나 액세스될 수 있고, 본 발명의 일 실시예에 따라서 액세스되어 사용될 수 있는 종류의 정보를 포함한다. 예컨대, 개인 정보 데이터 파일(322)은 모든 유형의 정보를 포함하는 어떠한 유형의 컴퓨터 파일이어도 좋다. e-메일, 약속 파일, 개인 정보 등은 개인 정보 데이터베이스에 저장되는 데이터 유형의 예이다. 또한, 이러한 개인 정보 데이터 파일(322)은, 예컨대 스프레드시트, 데이터베이스, 문서 파일, e-메일 데이터 등의 파일 유형이어도 좋다. 더욱이, 이러한 개인 정보 데이터 파일(322)[이하, 네트워크 기반 데이터 파일(324)도 포함]은 사용자의 지시, 예컨대 차고문 열기, 문서 프린트, 팩스 송신, e-메일 발송, 가전 제품 켜기 및/또는 제어, 텔레비전 또는 라디오 프로그램 녹화(녹음) 또는 켜기, 통신 장치 및/또는 시스템과의 인터페이스 등의 지시로 작업을 수행시킬 수 있다. 이러한 기능은 데이터 파일(322~324) 내에 포함될 수 있으며, 또는 전화 입력부(302), 전화 출력부(304), 입출력부(350) 등에 의해서 이러한 데이터 파일(322~324)에 액세스될 수 있다. 인터페이스 프로그램(300)은 컴퓨터(100)에 내장되는 전술한 바와 같은 컴포넌트들을 이용하여 이러한 작업들을 수행할 수 있고, 또는 프로그램(300)은 전화 입력부(302), 전화 출력부(304), 입출력부(350) 등을 이용하여 컴퓨터(100)에 외장된 장치들과 인터페이싱할 수 있다는 것을 이해할 것이다.
사용자를 대신하여 컴퓨터(100)에 의해서 액세스될 수 있는 추가의 파일은 네트워크 기반 데이터 파일(324)이다. 이러한 네트워크 기반 데이터 파일(324)은 매크로, XML 태그, 또는 인터넷과 같은 네트워크(120)에 액세스하여 사용자의 최신 정보를 획득하는 다른 기능을 포함한다. 이러한 정보는, 예컨대 주가, 일기 예보, 뉴스 등일 수 있다. 이하, 도 7a 및 도 7b의 인터넷 구동가능 스프레드시트의 배경에서 네트워크 기반 데이터 파일(324)의 다른 예에 대해서 설명한다. 이해될 수 있는 바와 같이, 여기서 사용되는 사용자 데이터(320)란 용어는 개인 정보 데이터 파일(322) 및/또는 네트워크 기반 데이터 파일(324)을 포함하는 데이터 파일 유형을 지칭한다. 인터페이스 프로그램(300)이 사용자 데이터(320)에 액세스할 수 있도록 데이터 파일 인터페이스(355)이 제공된다. 이해될 수 있는 바와 같이, 데이터 파일 인터페이스(355)는 1개이어도 좋고, 지정 파일 또는 파일 유형과만 인터페이싱할 수 있는 복수개이어도 좋다. 또한 일 실시예에서, 인터페이스 프로그램(300)으로 하여금 시간 및 날짜 정보를 판정할 수 있게 하는 시스템 클록(340)이 제공된다. 또한 일 실시예에서 외부 장치, 컴포넌트 등과 인터페이싱하기 위한 입출력부(350)가 제공된다. 예컨대 입출력부(350)는 프린터 포트, 시리얼 포트, USB 포트, 기타 중에서 하나 이상을 포함할 수 있다.
인터페이스 프로그램(300)에는 전술한 하드웨어 및 소프트웨어 컴포넌트가 연결된다(점선으로 표시됨). 이러한 인터페이스 프로그램(300)과 관련된 예시적인 사용자 인터페이스의 세부에 대해서는 도 6a 내지 도 6f를 참조하여 설명한다. 그러나, 인터페이스 프로그램(300) 자체는 본 발명의 일 실시예에 따라 태스크의 성능을 조정하는 소프트웨어 컴포넌트 또는 독립형 프로그램 중 어느 하나이다. 예컨대, 인터페이스 프로그램(300)은 다른 소프트웨어 컴포넌트를 제어하고, 또한 어떤 사용자 데이터가 열리고 어떤 "문법(grammer)"(사용자로부터의 발성이 예상되는 구문)이 들릴지를 제어한다.
인터페이스 프로그램(300) 자체는 사용자가 관심이 있는 사용자 데이터(320)를 포함할 필요가 없음을 이해할 것이다. 이와 같이 하여 인터페이스 프로그램(300)은 전술한 바와 같이 어느 사용자 데이터(320) 또는 다른 소프트웨어 컴포넌트와는 독립적으로 수정 및 업데이트 가능한 비교적 작고 효율적인 프로그램을 유지한다. 또한 이러한 모듈식 구성에 의해서 인터페이스 프로그램(300)은 임의 유형의 소프트웨어 컴포넌트를 실행 중인 컴퓨터(100)에서 사용할 수 있다. 그 결과, 호환성 문제가 완화된다. 더욱이 퍼스널 컴퓨터와 같은 컴퓨터(100)에서 동작하도록 설계되는 프로그램 및 컴포넌트의 인터페이스 프로그램(300)을 사용함으로써 비서버 컴퓨팅 환경에서 발생하는 복잡한 음성 인식을 가능하게 한다는 것을 이해할 것이다. 따라서, 인터페이스 프로그램(300)은 서버에 대치되는 컴퓨터(100)에서 실행하도록 설계된 프로그램과 인터페이싱하여 컴퓨터(100) 사용자에게 친숙한 프로그램이다. 예컨대 이러한 인터페이스 프로그램은 컴퓨터(100)의 운영 체제에 액세스 가능하거나 그 일부인 기존의 소프트웨어 애플리케이션일 수 있다. 이해될 수 있는 바와 같이, 이러한 인터페이스 프로그램은 또한 스탠드얼론형 애플리케이션, 하드웨어 인터페이스 등일 수 있다.
본 발명의 일 실시예의 모듈식 성질에 의해 임의의 음성 인식 소프트웨어(310)를 가상적으로 이용할 수 있다는 것을 이해할 것이다. 그러나, 사람의 음성 패턴과 억양에 있어서 큰 변화는 이러한 인식 소프트웨어(310)의 정확도를 제한한다. 따라서 일 실시예에서, 이러한 인식 소프트웨어(310)의 정확도는 인식 소프트웨어(310)가 인식하고 있는 구두 표현의 배경을 제한함으로써 향상된다. 예컨대, 인식 소프트웨어(310)가 특정 주제 영역으로부터의 단어들을 인식하는 것에 제한이 있다면, 인식 소프트웨어(310)는 원하는 주제의 영역과 관련이 있는 단어로서 (관련없는 수많은 단어들과 유사한 사운드를 낼 수 있는) 발성을 정확하게 인식할 것이다. 그러므로 일 실시예에서, 인터페이스 프로그램(300)이 액세스하는 사용자 데이터(320)는 이러한 배경 제한을 수행하는 방식으로 구성되고 조직된다. 이러한 구성은 도 3에 도시한 바와 같이 인터페이스 프로그램(300) 또는 다른 소프트웨어 컴포넌트에 대한 수정을 필요로 하기 보다는 사용자 데이터(320) 자체로 실시될 수가 있다.
예컨대, 마이크로소프트사의 엑셀(상표명) 등의 스프레드시트 애플리케이션은 인터페이스 프로그램(300)과 함께 사용하기 적합한 방식으로 데이터를 저장하고 액세스하기 위한 수단을 제공한다. 스크립트 파일, 경보 파일, 룩업 파일, 커맨드 파일, 솔버 파일(solver file) 등이 본 발명의 일 실시예에서 사용 가능한 모든 유형의 스프레드시트 파일이다. 본 발명의 일 실시예와 관련한 스프레드시트의 사용에 대해서는 도 7a를 참조하여 후술한다.
스크립트 파일은 사용자와 컴퓨터(100) 사이에서 대화를 제공하는 스프레드시트이다. 예컨대 일 실시예에서, 하나의 문법을 나타내는 하나 이상의 열(혹은 행) 스프레드시트는 인터페이스 프로그램(300)에 의해서 인식될 사용자가 말할 수 있는 문법을 나타내며 하나 이상의 열(혹은 행) 스프레드시트는 컴퓨터(100) 응답을 나타낸다. 이와 같이 사용자가 예로 "헬로우"라고 말하면, 컴퓨터(100)는 "하이" 또는 "굳 모닝" 등을 말할 수 있다. 따라서 이러한 스크립트 파일은 컴퓨터(100)와의 사용자 친숙한 대화를 가능하게 한다.
일 실시예에서 경보 파일은 원하는 기능에 대응하는 하나 이상의 열(혹은 행) 스프레드시트의 엔트리를 가진다. 예컨대 스프레드시트의 엔트리는 사용자가 약을 복용할 특정 날짜 및/또는 시간을 설정하고, 회의에 참석할 특정 날짜 및/또는 시간을 설정하기 위한 리마인더에 대응할 수 있다. 이와 같이 인터페이스 프로그램(300)은 사용자와 접촉하여 사용자에게 리마인더 정보를 주는 전화 출력부(304)와 같은 컴포넌트와 대화한다. 따라서 경보 파일이 소정의 조건에 따라 어떤 작용을 발생시키도록 실행되어야 하기 때문에 경보 파일은 일부 실시예에서 항상 엑티브 상태이어야 함을 이해할 것이다.
일 실시예에서 룩업 파일은 정보를 담고 있는 스프레드시트이거나 정보와 상호 관련이 있는 스프레드시트이다. 일 실시예에서 그 정보에는 룩업 파일 내에 전체가 담겨져 있고, 다른 실시예에서 룩업 파일은 룩업 파일 외부의 데이터 소스로부터의 정보를 참조한다. 예컨대 스프레드시트는 (예컨대 '스마트 태그' 등을 이용하여) 인터넷을 통해 이용 가능하고 정보를 보증하도록 소정 간격으로 '리프레시'될 수 있는 참조 데이터가 최신의 것인 셀들을 포함할 수 있다. 그러므로, 룩업 파일을 이용하여 예컨대 주식 시세, 스포츠 스코어, 기상 상태 등에 대한 정보를 찾을 수 있다. 이러한 정보는 컴퓨터(100)에 로컬 혹은 원격으로 저장될 수 있다는 것을 이해할 것이다.
일 실시예에서, 커맨드 파일은 사용자로 하여금 커맨드를 컴퓨터(100)에 입력할 수 있게 하고 인터페이스 프로그램(300)으로 하여금 그 커맨드를 실행하도록 적절한 컴포넌트와 인터페이싱하게 하는 스프레드시트이다. 예컨대 사용자는 노래를 듣기를 원할 수가 있으며, 그에 따라 인터페이스 프로그램(300)은 노래를 재생하는 음악 프로그램과 인터페이싱할 수 있다. 일 실시예에서 솔버 파일에 의해 사용자는 컴퓨터(100)에 구두로 질문함으로써 수학 문제 및 다른 분석적 문제를 해결할 수가 있다.
각 유형의 파일에 있어서, 그 파일에 포함되어 있는 데이터는 일련의 행 및/또는 열로 구성되는데, 그것은 "문법" 또는 사용자가 언급하고 있는 데이터를 판정할 수 있도록 음성 인식 소프트웨어(310)가 인식해야 하는 문법에 대한 링크를 포함하고 있다. 전술한 바와 같이, 본 발명의 일 실시예에 의해 사용되는 예시적인 스프레드시트는 도 7a 및 도 7b과 관련하여 상세하게 후술한다.
전술한 바와 같이, 스크립트 파일은 사용자에게 원하는 정보를 제공하거나 또는 원하는 작업을 실행하는 인터페이스 프로그램(300)에 의해 레버리지(leverage)될 수 있는 스프레드시트 기술의 간단한 애플리케이션을 나타내고 있다. 일 실시예에서 사용되고 있는 특정 음성 인식 소프트웨어(310)에 따라서 이러한 스크립트의 구문은 사용자로부터의 구두 발성의 관점에서 상기 소프트웨어가 청취하는 것에 영향을 미친다는 것을 이해할 것이다. 도 7a와 관련하여 후술하는 바와 같이, 본 발명의 일 실시예는 상기 문법을 프로그래밍하는 사용자 친화적인(user-friendly) 방식과 함께 유연한 문법을 제공하고, 그에 따라 사용자는 컴퓨터(100)에 의해 원하는 작업을 실시하도록 하기 위해서 이야기해야만 하는 정확한 선언문을 기억해 낼 필요는 없다.
일 실시예는 사용자의 요구 시에, 예컨대 룩업 파일을 단지 열도록 구성된다. 이와 같이 하여, 컴퓨터(100)가 잠재적으로 해독해야 하는 문법의 수는 축소되고, 이것에 의해서 임의의 음성 인식 속도 및 신뢰도는 증가된다. 또한, 그와 같은 구성은 다른 동작을 위해 컴퓨터(100) 자원들을 해방시킨다. 만일 사용자가 상기 파일을 열기를 원하는 경우라면, 사용자는 예컨대 "주가 조회" 등과 같은 구두 커맨드를 발행할 수 있다. 이어서, 컴퓨터(100)는 어느 데이터 파일(322-324) 등이 구두 발성에 대응하여, 그것을 열지 여부를 판정한다. 이어서, 컴퓨터(100)는 그 데이터에 지금 액세스될 수 있다는 사실을 구두 신호에 의해서 사용자에게 통지한다.
다른 실시예에서, 사용자는 표준 스프레드시트 기술을 이용해서 스프레드시트 등을 완성하지는 못한다. 그 대신에, 마법사(wizard), API 등은 예컨대 표준 템플릿 파일을 채우기 위해서 사용될 수 있다. 다른 실시예에서, 전술한 음성 인식 기술은 키보드(104) 등을 사용하는 대신에 이러한 템플릿 파일에 채우기 위해서 사용될 수 있다. 또 다른 실시예에서, 인터페이스 프로그램(300)은 일련의 구두 질문을 사용자에게 프롬프트로 보내고, 사용자는 이 프롬프트에 대해서 자신의 대답을 구두로 말할 수 있다. 이와 같이 하여, 컴퓨터(100)는 보다 상세한 질문을 수행하고, 사용자 데이터(320) 등을 생성하거나 수정할 수 있다. 더욱이, 또 다른 실시예에서, 마법사는 기존의 스프레드시트 또는 인터넷 등으로부터 다운로드되는 것을, 인터페이스 프로그램(300)이 액세스할 수 있고 이해할 수 있는 포맷으로 변환한다.
따라서, 도 3에 예시된 바와 같은 예시적인 구성에서, 본 발명의 실시예에 따른 인터페이스 프로그램(300)은 사용자에게 정보를 전송할 수가 있고, 또한 사용자로부터 상기 정보를 수신할 수 있다. 상기 정보는 인터넷과 같은 네트워크(120) 및/또는 그와 유사한 것으로 컴퓨터(100) 내에 포함될 수 있는 사용자 데이터(320)[예컨대, 메모리(110) 내에서와 같이]를 포함할 수도 있다. 따라서, 그와 같은 작업을 실행하는 방법은 도 4 및 도 5와 관련해서 상세하게 후술한다.
이제 도 4a 내지 도 4c로 가서, 본 발명의 일 실시예에 따른 사용자 개시 트랜잭션의 예시적인 방법의 흐름도가 도시되어 있다. 도 3에 연계하여 경보 스크립트에 대해 설명한 바와 같이, 일 실시예에서는 인터페이스 프로그램(300)이 전화 출력부(304)에 의해서도 트랜잭션을 개시할 수가 있다는 것을 이해할 것이다. 이러한 상황을 도 5와 연계하여 상세하게 후술한다.
단계 405에서, 사용자는 컴퓨터(100)와의 통신을 구축한다. 이러한 구축은 예컨대 도 2b 및 도 2c와 관련해서 전술한 바와 같은 휴대 전화(208)에 의해 컴퓨터(100)를 호출하는 사용자에 의해 발생할 수 있다. 사용자 데이터(320) 등으로 액세스하기 위해서 상기와 같은 구축이 예컨대 보안 보증(security clearance)을 구축할 수 있는 중간 단계를 또한 포함할 수 있다는 것을 이해할 것이다. 옵션 단계 410에서, "구두" 프롬프트가 사용자에게 제공된다. 상기 프롬프트는 컴퓨터(100)가 구두 발성에 대해 청취할 준비가 되어 있음을 사용자에게 간단히 표시할 수도 있이며, 또는 전술한 프롬프트에는 날짜 및 시간 등과 같은 기타의 정보를 포함할 수도 있다.
단계 415에서, 예컨대 전화 입력부(302) 등에 의해 사용자 요구가 수신된다. 단계 420에서, 사용자 요구는 요구의 내용을 판정하기 위해서 분해 및/또는 분석된다. 그와 같은 분해 및/또는 분석은 예컨대 음성 인식 모듈(310) 및/또는 자연 언어 처리 모듈(325)에 의해 실시된다. 단계 425에서, 사용자의 요구에 대응하는 원하는 기능을 판정한다. 예컨대, 사용자의 요구를 인식하는 음성 인식 소프트웨어(310)에 대해 요구되는 것과 같은 횟수 만큼 단계 410-425가 반복될 수 있다는 것을 이해할 것이다. 예컨대, 사용자가 컴퓨터(100)와 통신하고 있는 통신 채널이 낮은 품질인 경우, 사용자가 구두로 말하는 것이 불명료한 경우, 또는 다른 이유로 해서 이러한 반복이 필요할 수도 있다.
단계 425의 판정이, 사용자가 기존의 정보를 요구하고 있는 것인지 또는 컴퓨터(100)로 하여금 동작을 수행하도록 요구하고 있는 경우, 방법은 도 4b의 단계 430으로 진행한다. 예컨대, 사용자는 컴퓨터(100)로 하여금 다음날 있는 자신의 약속을 판독하게 하기를 원할 수 있다. 이와 달리, 도 7a 및 도 7b와 관련해서 후술하는 바와 같이, 사용자는 현재의 주식 시세를 찾기를 원할 수도 있다. 만일 그 대신에 단계 425의 판정이, 사용자 요구에 대응하는 원하는 기능이 데이터를 추가하거나 생성하는 것인 경우, 상기 방법은 도 4c의 단계 450으로 진행한다. 예컨대, 사용자는 메시지를 기록하기를 원할 수도 있고, 기존의 접촉이나 또는 새로운 접촉을 위한 새로운 전화 번호 등을 입력한다.
따라서, 이제 도 4b로 가서, 요구된 사용자 데이터(320)는 단계 430에서 인터페이스 프로그램(300)에 의해 선택되어 검색된다. 도 3과 관련해서 전술한 바와 같이, 적절한 데이터 파일 인터페이스(335)는 사용자 데이터(320)와 상호작용하여, 이 요구된 정보에 액세스하도록 인터페이스 프로그램(300)에 의해 동작된다. 이와 달리, 데이터 파일 인터페이스(335)는 예컨대 입출력부(350)를 이용하여 상기 요구된 동작을 실행하도록 적응되어도 좋다. 단계 432에서, 인터페이스 프로그램(300)은 문자-음성 엔진(315) 및/또는 자연 언어 합성 컴포넌트(330) 중 어느 하나로 하여금 사용자 데이터(320)로부터 검색된 정보에 기초하여 구두 대답을 생성하게 하고, 및/또는 원하는 동작을 발생하게 한다. 만일 요구된 데이터가 그것을 필요로 하는 경우, 옵션 단계 434에서, 추가의 사용자 데이터(320)를 요구하거나 또는 최초의 요구를 더욱 명확하게 하도록 구두 프롬프트가 사용자에게 다시 제공된다. 옵션 단계 436에서 사용자 응답이 수신되고, 옵션 단계 438에서 그 응답은 다시 한번 분해 및/또는 분석된다. 이와 같은 옵션 단계들 434-438은 도 4a의 단계들 410-420과 연계하여 전술한 바와 같이 수행된다는 것을 이해할 것이다. 원하는 기능이 (예컨대, 차고문 열기, 팩스 발송, 문서 프린트 등과 같은) 동작을 수행하는 인터페이스 프로그램을 위한 것이라면, (예컨대, 동작이 성공적으로 수행되었음을 사용자에게 통보하는 등의) 소정 방식으로 응답이 발생될 수 있긴 하지만, 어떠한 응답도 필요하지 않기 때문에, 이와 같은 단계들 434-438은 옵션이라는 것을 이해할 것이다. 단계 440에서, 추가의 동작이 필요한지의 여부에 관한 판정이 이루어진다. 만일 그렇다면, 방법은 추가의 사용자 데이터(320) 검색을 위해 단계 430으로 복귀한다. 만일 추가의 동작이 필요하지 않다면, 단계 442에서, 대화가 종료(예컨대, 사용자가 전화를 끊는 경우)되거나, 다른 사용자 입력을 기다리기 위해 스탠바이 모드에 놓인다.
단계 425의 판정 결과가, 사용자가 특정한 동작이 수행될 것을 요구하고 있다는 판정이 되는 경우를 이해할 것이다. 예컨대, 사용자는 전화 호출을 개시하기를 원할 수 있다. 이와 같은 실시예에서, 인터페이스 프로그램(300)은 전화 입출력부(302 및 304), 입출력부(350) 및/또는 이들과 유사한 것(명료성을 위해, 도 4b에 도시되지 않음)을 통해 세션 개시 프로토콜(SIP; Session Initiation Protocol) 소프트폰 소프트웨어로 하여금 사용자가 지정한 전화 번호에 호출을 넣도록 지시할 것이다. 또 다른 실시예에서, 예컨대 Microsoft® Outlook® 또는 다른 컨택 데이터베이스 내에 존재하는 전화 번호로의 호출을 요구할 수 있다. 이와 같은 상황에서, 사용자는 프로그램(300)이 컨택 데이터베이스 내의 특정한 이름이나 다른 엔트리를 호출하도록 요구하며, 프로그램(300)은 SIP 소프트폰으로 하여금 컨택 데이터베이스 내의 그 이름이나 다른 엔트리와 관련된 전화 번호를 다이얼링하도록 한다. 본 논의가 하나의 전화 호출에 관련되어 있지만, 임의 갯수의 호출을 넣거나 호출이 연결되어 다자통화 호출 등도 허용한다는 것을 이해할 것이다.
이와 같은 실시예에서 호출을 넣을 때, 프로그램(300)은, 그 사용자 및 한명 이상의 다른 사용자들이 동일한 전화선 상에 서로 연결되어 구두로 명령을 내리거나 프로그램으로부터 정보를 요구하는 능력을 갖도록, 예컨대 SIP 폰을 이용하는 다자통화 호출을 개시한다. 특정한 문법은, 프로그램이 정보를 제공하거나 및/또는 특정한 활동을 수행할 것을 특별히 요구받을때까지, 그 프로그램이 사용자들간의 대화에 조용하게 "청취"하는 것을 가능케할 것이다. 이와 달리서, 프로그램(300)은, 일단 프로그램이 다른 사용자에 대한 호출을 개시했거나, 복수 사용자들간의 다자통화 호출을 개시했다면, 사용자로부터 "연결해제(disconnect)"된다.
도 4a와 연계하여 전술한 바와 같이, 사용자는, 단순히 이와 같은 데이터를 검색하거나 지정된 동작을 수행할 것을 요구하는 것 대신에, 데이터를 추가하거나 생성하고 싶을 수도 있다. 따라서, 이제 도 4c를 참조하면, 단계 450에서, 새로운 데이터베이스, 스프레드시트 등의 형태 또는 기존 파일 내의 새로운 엔트리로서의 사용자 데이터(320)는 앞서 도 4a와 연계하여 수신된 사용된 명령에 따라 선택되거나 생성된다. 단계 452에서, 사용자에게 구두 프롬프트가 제공되어, 그 사용자는 새로운 데이터나 명령을 말하도록 지시받는다. 단계 454에서, 사용자 응답이 수신되고, 단계 456에서 그 응답은 분해 및/또는 분석된다. 단계 458에서, 구두 데이터 또는 필드가 단계 450에서 생성된 사용자 데이터(320)에 추가된다. 옵션 단계 460에서, 필요하다면, 구두 프롬프트가 다시 한번 사용자에게 제공되어 새로운 추가 데이터를 요구한다. 옵션 단계 462에서, 이와 같은 데이터는 사용자 구두 응답의 형태로 수신되고, 옵션 단계 464에서, 이와 같은 응답은 분해 및/또는 분석된다. 단계 466에서, 추가 동작이 요구되는지의 여부에 관한 판정이 이루어진다. 만일 그렇다면, 방법은 단계 458로 복귀해서 사용자 데이터(320)에 구두 데이터나 필드를 추가할 것이다. 추가의 동작이 필요없다면, 단계 468에서 대화가 종료하거나 추가 사용자의 입력을 기다리기 위해 스탠바이 모드에 놓인다. 이와 같은 사용자 발성의 촉구와 수신은 도 4a 및 도 4b와 연계하여 전술한 바와 같이 발생된다는 것을 이해할 것이다.
도 4a 내지 도 4c와 연계하여 전술한 방법과 대조적으로, 도 5의 방법은 본 발명의 실시예에 따라 컴퓨터(100)에 의해 개시된 트랜잭션의 예시적 방법이다. 따라서, 이제 도 5를 참조하면, 단계 500에서, 사용자 데이터(320)가 모니터링된다. 이해할 수 있는 바와 같이, 사용자 데이터(320)의 복수 인스턴스는, 경보 파일, 약속 데이터베이스, e-메일/스케쥴링 프로그램 파일 등과 같은 인터페이스 프로그램(300)에 의해 모니터링될 것이다. 단계 505에서, 모니터링되고 있는 사용자 데이터(320)가 동작 항목을 포함하는지의 여부에 관한 판정이 이루어진다. 한 실시예에서 인터페이스 프로그램(300)은, 예컨대 데이터베이스 내의 엔트리들을 검토하고 현재 발생한 항목들 중 어느 것이 동작을 요구하는지를 판정하기 위해 시스템 클록(340)을 사용하도록 적응되어 있다는 것을 이해할 것이다. 어떠한 동작 항목도 검출되지 않는다면, 인터페이스 프로그램(300)은 단계 500에서 사용자 데이터(320)를 계속 모니터링한다. 만일 사용자 데이터(320)가 동작 항목을 포함한다면, 인터페이스 프로그램(300)은 단계 510에서 사용자와의 대화를 개시한다. 이와 같은 개시는, 예컨대, 인터페이스 프로그램이 소프트웨어 컴포넌트로 하여금 전화(204) 또는 휴대 전화(208)을 통해 사용자에게 컨택하도록 함으로써 발생될 수 있다. 도 2a 내지 도 2c와 연계하여 전술한 하드웨어 구성들 중 어느 것도 이와 같은 기능을 실행할 수 있다.
단계 515에서, 구두 프롬프트가 사용자에게 발송된다. 예컨대, 사용자가 자신의 휴대 전화(208)에 응답할 때, 인터페이스 프로그램(300)은 문자-음성 엔진(315)으로 하여금 동작 항목에 관한 선언문을 발생시키도록 한다. 이 때, 보안 검사, 소정의 익살 등과 같은 비동작-항목에 관련된 선언문들이 사용자에게 발성될 수 있다. 단계 520에서, 사용자 응답이 수신되고, 단계 525에서, 그 응답은 도 4a 내지 도 4b와 연계하여 전술한 바와 같이 분해 및/또는 분석된다. 단계 530에서, 추가 동작이 요구되는지에 관한 판정이 구두 발성에 기초하여 이루어진다. 만이 그렇다면, 방법은 단계 515로 복귀한다. 추가 동작이 요구되지 않는다면, 옵션 단계 535에서 인터페이스 프로그램(300)은, 사용자 요구를 완료하기 위해 사용자 데이터(320)에 필요한 조정을 가한다. 예컨대, 데이타베이스 인터페이스(320)로 하여금 수정 사항이나 설정을 저장하고, 경보를 설정하는 등을 행하도록 한다. 그 다음, 인터페이스 프로그램(300)은 단계 500으로 복귀해서 사용자 데이터(320)를 계속 모니터링한다. 사용자는 컴퓨터(100)로부터 연결해제되거나 다른 태스크를 수행하기 위해 계속 연결되어 있을 수도 있다는 것을 이해할 것이다. 실제로, 사용자는 그 다음 도 4와 연계하여 전술한 방법에 따라 처리되는 명령들을 발송할 것이다.
따라서, 인터페이스 프로그램(300)은 컴퓨터(100) 상에 저장된 또는 그에 액세스가능한 사용자 데이터(320)에 관하여 사용자로부터의 접촉을 개시하고 수신할 수 있다는 것을 이해할 것이다. 또한, 인터페이스 프로그램(300)은 일부 실시예에서, 사용자가 원격으로 컴퓨터(100)에 액세스하기 때문에, 사용자에 의한 확인없이 실행된다는 것을 이해할 것이다. 그러나, 사용자는 자신의 기호에 따라 인터페이스 프로그램(300)을 동작시키기 위해서 인터페이스 프로그램(300)을 구성 또는 수정해야 하는 경우도 있다. 따라서, 도 6a 내지 도 6f는 본 발명의 실시예에 따른 이러한 인터페이스 프로그램(300)의 예시적인 사용자 인터페이스(600)를 도시하는 스크린샷이다. 전술한 바와 같이, 당업자는 컴퓨터(100)의 디스플레이 장치에 표시하기 위한 사용자 인터페이스의 프로그래밍 및 구성을 잘 알고 있어야 하므로, 여기서 편의상 이러한 구성에 대한 세부는 생략한다.
이제 도 6a으로 가서, 전술한 인터페이스 프로그램(300)의 사용자 인터페이스(600)가 도시되어 있다. 도 6a로부터 이해될 수 있는 바와 같이, 사용자 인터페이스(600)는 각각이 기능으로 분류된 각종 특징부에 대응하는 수개의 선택 가능한 탭(602)을 갖는다. 이해될 수 있는 바와 같이, 본 발명의 실시예에 부합한다면 탭(602) 대신에 어떠한 종류의 선택 특징부도 이용할 수 있다. 도 6a에 있어서, 또한 사용자 인터페이스(600)가 "메인 메뉴"를 표시하고 있다는 것을 알 수 있다. 이러한 사용자 인터페이스(600)의 메인 메뉴 내에는 사용자가 말할 수 있는 옵션 구문(604) 목록이 각 구문(604)의 기능에 대한 간단한 설명과 함께 존재한다. 이러한 구문은 음성 인식 컴포넌트(310) 및 자연 언어 처리 컴포넌트(325)에 의해 식별될 수 있는 전술한 문법의 예이다.
이제 도 6b로 가서, 사용자 인터페이스(600)의 다른 도면이 도시되어 있다. 도 6b에는 이용 가능한 음성 프로파일(606)이 표시된다. 이해될 수 있는 바와 같이, 그리고 도 3과 관련하여 전술한 바와 같이, 음성 인식 소프트웨어(315)(편의상 도 6b에서는 생략)는 일 실시예로, 각종 가능한 음성 프로파일에 응답하도록 구성될 수 있다. 이러한 상이한 프로파일은 예컨대 도 2와 관련하여 전술한 바와 같이 상이한 하드웨어 또는 소프트웨어 구성이나 상이한 사용자에 대응할 수 있다.
이제 도 6c로 가서, 사용자 인터페이스(600)의 또 다른 도면이 도시되어 있다. 도 6c에는 구성 옵션(608) 목록이 표시되어 있다. 이해될 수 있는 바와 같이, 이러한 옵션(608)을 이용하여 인터페이스 프로그램(300)을 사용자의 기호에 맞출 수 있다. 예컨대, 사용자의 위치(ZIP 코드 등으로)로 사용자가 거주하는 곳의 표준 시간대 등을 판정할 수도 있다. 전술한 바와 같이, 인터페이스 프로그램(300)은 또한 마이크로소프트(Microsoft®) 아웃룩(Outlook®), 유도라(Eudora) 등과 같은 e-메일 및/또는 캘린더 또는 약속 소프트웨어와 상호 작용하도록 구성될 수도 있다. 다른 가능한 구성 옵션(608) 가운데 특히, 일 실시예로, 음성 형식 환경(608a), 연결 환경(608b) 등이 있다. 사용자는 사용자 인터페이스(600)를 통해 어떠한 갯수 및 종류의 구성 옵션(608)도 이용할 수 있고, 이러한 모든 구성 옵션(608)도 마찬가지로 본 발명의 실시예에 포함된다는 것을 이해할 것이다.
이제 도 6d로 가서, 사용자 인터페이스(600)의 또 다른 도면이 도시되어 있다. 도 6d에는 인터페이스 프로그램(300)에 이용할 수 있는 사용자 데이터(320)의 시트(610)가 표시되어 있다. 전술한 바와 같이, 인터페이스 프로그램(300)은 다른 프로그램, 데이터 파일, 웹사이트 등과의 인터페이싱이 가능하다. 도 6d에서 보여주는 도면은 사용자가 선택하거나 구두로 요구할 수 있는 "시트"로서 이용 가능한 파일 및 프로그램을 나타낸 것이다.
이제 도 6e로 가서, 사용자 인터페이스(600)의 또 다른 도면이 도시되어 있다. 도 6e에는 이용 가능한 탐색 구문(612) 목록이 이용 가능한 탐색 레코드와 함께 목록화되어 있다. 도 3과 관련하여 전술한 바와 같이, 인터페이스 프로그램(300) 및/또는 사용자 데이터(320)는 컴퓨터(100)가 음성 인식 컴포넌트(310)를 통해 인식하려 하는 소정의 구문 또는 문법 세트를 가질 수 있다. 그러므로, 이와 같이 하여, 음성 인식 컴포넌트(310)의 번역에 대한 신뢰성이 향상될 수 있다. 이러한 문법에 대해서는 도 7과 관련하여 상세하게 후술할 것이다.
이제 도 6f로 가서, 사용자 인터페이스(600)의 또 다른 도면이 도시되어 있다. 도 6f에는 사용자의 음성 요구에 대한 음성 인식 소프트웨어(310)의 분석을 보여주는 다이얼로그(618)가 표시되어 있다. 이해될 수 있는 바와 같이, 본 발명의 일 실시예에서, 사용자가 컴퓨터(100)로부터 멀리 떨어져 있다면 사용자는 이러한 다이얼로그(618)를 볼 수 없을 것이다. 그러나, 이러한 다이얼로그(618)는 진단, 오락 또는 다른 목적으로 이러한 사용자 인터페이스(600)에 의해 표시될 수도 있다.
이제 도 7a로 가서, 사용자 데이터(320)의 시트(700)가 도시되어 있다. 도 7a로부터 이해될 수 있는 바와 같이, 도시한 예시적인 시트(700)는 스프레드시트이며, 컴퓨터(100)에 대해 액세스 또는 저장 가능한 모든 종류의 정보 데이터 유형이어도 좋다. 시트(700)에는 도 7a에서는 개개의 스톡 레코드인 탐색 레코드(714)뿐만 아니라 문법(712) 목록도 도시되어 있다. 또한, 도 7a로부터 이해될 수 있는 바와 같이, 스프레드시트(700)는 본 발명의 실시예에서 이용 가능한 수개의 데이터 시트(716)를 포함한다. 시트(716)는 스프레드시트(700)가 사용자가 액세스 가능한 다수 레벨의 데이터를 포함한다는 것을 보여주고 있다. 도 3과 관련하여 전술한 바와 같이, 임의 방식으로 편성되어 임의 종류의 파일로 저장되는 어떠한 종류의 사용자 데이터(320)도 마찬가지로 본 발명의 실시예에 포함된다는 것을 이해할 것이다.
그러나, 일 실시예에서, 컴퓨터(100)에 입력되고 컴퓨터(100)로부터 출력되는 음성은 각 열에서 시트(716)의 제1 및 제2 행에 각각 위치한다. 이러한 실시예에서, 컴퓨터(100)는 전체 질문 또는 단지 키워드 등을 검출하도록 프로그래밍될 수도 있다. 이와 같이, 컴퓨터(100)는 제2 행에 도시한 바와 같이 소정의 대답으로 응답한다. 일 실시예에서 이러한 대답은 사용자의 혼동을 피하고, 컴퓨터(100)가 사용자의 질문을 정확하게 해석했음을 사용자가 알 수 있도록 질문을 다른 형태로 바꿔 말한 것임을 이해할 것이다.
사용자는 이러한 스프레드시트(700)를 주문형 정보로 프로그래밍할 수 있고, 따라서 사용자는 자신이 원하는 정보를 희망하는 형식으로 포함하는 스프레드시트(700)를 가질 수 있다는 것을 이해할 것이다. 또한, 스프레드시트를 이용함으로써, 사요자는 예컨대 네트워크(120), 인터넷 등으로부터 이러한 스프레드시트(700)를 다운로드할 수 있게 된다. 이러한 스프레드시트(700) 프로그램(웹 질의, 스마트 태그 등을 포함)의 전체 기능을 이용하여, 인터페이스 프로그램(300)과 이용하는 원격 통신 장치 모두에 독립적인 데이터를 저장 및 액세스하는 유연한 수단을 사용자에게 제공할 수 있다는 것을 또한 이해할 것이다. 이해하는 바와 같이, 도 7의 예시적인 주식 시세 스프레드시트(700)는 네트워크(120) 등을 통해 주식 가격을 자동으로 업데이트시키는 기능을 이용하여, 시간에 민감한 데이터 경향을 유지한다.
일 실시예에서, 이러한 구문(712)은 동일한 정보를 요구하는 다수개의 가능한 문법을 포함한다는 것을 이해할 것이다. 이러한 방식에 있어서, 사용자는 원하는 질의를 위한 정확한 구문을 기억할 필요가 없으며, 이것은 사용자가 컴퓨터(100)와 원격으로 떨어져 있는 실시예에서 특정적인 것이다. 그에 따라, 음성 구문에 약간의 변화가 있는 요구라도 컴퓨터(100)는 여전히 인식할 수 있다.
예컨대, "[레코드]의 현재 가격은 얼마입니까?"의 음성 발성이 정확하다면, 특정 주식의 현재 가격을 요구하는 확고한 문법만이 응답을 반환할 수 있다. 반면에, 유연한 문법은 사용자가 컴퓨터(100)에게, 예컨대 [레코드]의/에 대한 "최근 가격", "현재 가격", "가격"은 "얼마입니까", "얼마냐", "얼마였습니까"와 같이 말할 때에 사용한 것과 복수의 문법적으로 동등한 구문를 포함할 수 있다. 따라서, "[레코드]에 대한 가격이 얼마냐?"라고 말하는 사용자는 "[레코드]의 최근 가격이 얼마였습니까?"라고 말한 사용자와 동일한 응답을 갖게 될 것이다. 일 실시예에서, 이러한 유연성은 논리적 심볼 등을 통해 제공되지만, 유연한 문법을 제공하는 임의의 이러한 방법이 본 발명의 실시예와 동일하게 일치한다는 것을 이해할 것이다. 스프레드시트(700)의 제2 행에서 볼 수 있는 바와 같이, 전술한 질문에 대답은 [레코드]의 최근 가격은 [가격]이였습니다"이다.
일 실시예에서, 인터페이스 프로그램(300)은 데이터 파일 인터페이스(335)를 통해, 사용자가 논리적으로 데이터에 쉽게 액세스할 수 있는 방법으로 그러나 개인화된 방법으로, 마이크로소프트(등록상표)사의 엑셀 스프레드시트와 같은 스프레드시트와 인터페이싱한다. 데이터 파일 인터페이스(335)는, 예컨대 시트 2의 행 1의 입력 문법, 시트 2의 행 2의 출력 문법 및 시트 2의 열 1의 레코드 라벨을 찾는다. 사용자가 인터페이스 프로그램(300)이 파일을 룩업할 것을 요구하는 경우, 데이터 파일 인터페이스(335)는 스프레드시트를 열어서 시트 2로 진행한다. 인터페이스 프로그램(300)은 가능한 모든 입력 문법(즉, 유연한 문법에 대한 모든 형태에서, 행 1의 모든 질문)을 생성하고, 모든 레코드와 조합된다. 예컨대, 전술한 예에서, 유연한 문법은 [레코드]의/에 대한, "최근 가격", "현재 가격", "가격"은 "얼마입니까", "얼마냐", "얼마였습니까"이다. 이러한 문법은 "얼마입니까", "얼마냐" 및 "얼마였습니까"에 대한 3개의 개별 문법을 생성하게 된다. 이것은 "최근 가격", "현재 가격" 및 "가격"에 대한 3개의 문법과, 그리고, "의" 또는 "에 대한"에 대한 2개 이상의 문법과 곱해진 후, 다시 시트의 주식(레코드) 수에 대해 곱해지게 된다.
일 실시예에서, 인터페이스 프로그램은 식별된 입력 문법에 대응하는 문자-음성 출력 문법으로 응답하도록 프로그래밍된다. 대개 출력 문법은 행 2에서 발견된 "출력 문법"과 입력 문법의 부분인 레코드 라벨의 조합이며, 입력 문법의 열 및 입력 레코드와 상관하는 셀에서 발견되는 데이터 "요소"이다. 인터페이스 프로그램(300)은 문자-음성 출력을 선택된 출력 통신 장치에 보낸다. 이 포맷으로써 사용자는 유용하고 개인적인 입력 및 출력 문법을 용이하게 프로그래밍할 수 있다.
일부 실시예 또는 배경에서는 유연한 문법이 적절하지 않을 수 있고, 다른 실시예에서는 컴퓨터(100)의 음성-문자의 문법 역시 유연할 수 있다는 것을 이해할 것이다. 이러한 방법에 있어서, 컴퓨터(100)는 그 컴퓨터(100)가 그 문자를 보다 현실적인 방법으로 바꿀 때, 사용자에 대하여 보다 "자연적인" 느낌을 가질 수 있다. 이러한 변화는, 예컨대 복수의 동등한 문법 중 하나를 랜덤하게 선택함으로써, 또는 특정 사용자, 일시 등에 따라 달성될 수 있다.
또한, 스프레드시트(700)가 소정의 태스크를 수행하는 매크로를 포함할 수 있다는 것을 이해할 것이다. 예컨대, 스프레드시트의 엔트리는 "조 스미스 콜" 커맨드에 응답하기 위하여, 동일 또는 상이한 스프레드시트에 있는 또는 마이크로소프트(등록상표)사의 아웃룩(등록상표)이나 다른 e-메일 프로그램 등의 개별 애플리케이션에 있는 "조 스미스" 엔트리와 관련된 전화 번호를 룩업하도록 구성될 수 있다. 인터페이스 프로그램(00)은 이어서 전화 번호를 다이얼하는 구성 요소에 액세스할 수 있고, 그 번호는 이어서 다이얼되어, 사용자에게로 콜 연결된다. 이러한 임의의 기능성은 본 발명의 실시예에 따라 이용될 수 있다. 예컨대, 도 7a의 시프레드시트(700)에 있어서, 주식 가격 및 기타 이러한 정보는 각 주식 가격의 액티브 웹 링크를 통해 웹 사이트로부터 취득된다. 예컨대 탭 딜리미티드 문자 파일, 데이터베이스 파일, 워드 프로세싱 파일 등의 기타 형태의 파일 모두는 사용자가 다수의 개별화된 데이터 소스를 생성할 수 있는 개방 아키텍쳐를 제공할 수 있다.
이제 도 7b를 참조하면, 스프레드시트(700)의 다른 보기가 도시되어 있다. 현재 보기에 있어서, 일련의 검색 레코드(714)가 다시 도시된다. 도 7b에서, 도시하는 검색 레코드(714)는 몇몇의 주식 인덱스를 나타내고 있지만, 이러한 레코드(714)는 전술한 바와 같이, 어떤 형태의 정보도 포함할 수 있다. 이 주식 인덱스예에서, 전술한 도 7a의 주식예와 함께, 그 레코드(714)와 관련된 데이터는, 예컨대 인터넷 등의 네트워크(120)를 통해 업데이트될 수 있다고 이해될 것이다. 도 7a의 경우와 같이, 시트(716)는 사용자가 액세스할 수 있는 다수 레벨의 데이터를 포함할 수 있다. 이해하겠지만, 도 7b의 시트(716)는 도 7a의 스프레드시트(700) 내에 포함될 수 있지만, 시트(706) 및 스프레드시트의 어떤 배열도 본 발명의 실시예와 동일하게 일치한다.
그에 따라, 구두 커맨드를 통해 컴퓨터를 원격 통신 장치에 동작 가능하게 연결시키는 방법 및 시스템이 제공된다. 본 발명을 몇몇 도면들의 예시적인 실시예와 관련하여 설명하였지만, 다른 유사한 실시예들을 이용할 수 있으며, 혹은 본 발명의 동일한 기능을 수행하기 위한 전술한 실시예에 대하여 본 발명으로부터 이탈하는 일없이 수정 및 추가가 가능할 수 있음을 이해해야 한다. 예컨대, 당업자라면, 본 출원 명세서에 설명한 본 발명이 통신 장치 또는 소프트웨어 애플리케이션의 어떤 구성에도 적용될 수 있음을 인식할 것이다. 그에 따라, 본 발명은 어떤 하나의 실시예 제한되는 것이 아니라, 첨부하는 청구범위에 따른 기술 사상 및 범주에서 해석되어야 한다.

Claims (86)

  1. 컴퓨터와 상호작용하는 방법으로서,
    상기 컴퓨터와 원격 통신 장치간의 통신 연결을 구축하는 통신 연결 구축 단계와,
    사용자로부터의 요구의 형태로 오디오 신호를 수신하는 오디오 신호 수신 단계와,
    상기 오디오 신호를 처리하여 원하는 기능을 판정하는 오디오 신호 처리 단계와,
    상기 원하는 기능이 구두 응답을 필요로 하는지 여부를 판정하고, 그런 경우에는, 구두 응답을 상기 원격 통신 장치를 통해서 상기 사용자에게 제공하며, 상기 오디오 신호에 응답하여 상기 원하는 기능을 수행하는 판정 단계
    를 포함하는 컴퓨터와의 상호작용 방법.
  2. 제1항에 있어서, 상기 통신 연결 구축 단계는 상기 컴퓨터에 의해서 개시되는 것인 컴퓨터와의 상호작용 방법.
  3. 제1항에 있어서, 상기 통신 연결 구축 단계는 상기 원격 통신 장치를 통해서 상기 사용자에 의해 개시되는 것인 컴퓨터와의 상호작용 방법.
  4. 제1항에 있어서, 상기 통신 연결 구축 단계는 전화 통신 링크를 구축하는 단계를 포함하는 것인 컴퓨터와의 상호작용 방법.
  5. 제4항에 있어서, 상기 전화 통신 링크는 휴대 전화 통신망에 의한 것인 컴퓨터와의 상호작용 방법.
  6. 제1항에 있어서, 상기 통신 연결 구축 단계는 VoIP(Voice over Internet Protocol) 연결을 구축하는 VoIP 연결 구축 단계를 포함하는 것인 컴퓨터와의 상호작용 방법.
  7. 제6항에 있어서, 상기 VoIP 연결 구축 단계는 전화 통신 링크를 구축하는 단계를 더 포함하는 것인 컴퓨터와의 상호작용 방법.
  8. 제7항에 있어서, 상기 VoIP 연결 구축 단계는 복수의 전기통신 네트워크에 의한 것인 컴퓨터와의 상호작용 방법.
  9. 제7항에 있어서, 상기 VoIP 연결은 SIP(Session Initiation Protocol) 전화에 의한 것인 컴퓨터와의 상호작용 방법.
  10. 제1항에 있어서, 상기 통신 연결 구축 단계는 상기 컴퓨터와의 직접 무선 통신 링크를 구축하는 단계를 포함하는 것인 컴퓨터와의 상호작용 방법.
  11. 제10항에 있어서, 상기 직접 무선 통신 링크는 코드리스 전화에 의한 것인 컴퓨터와의 상호작용 방법.
  12. 제1항에 있어서, 상기 원격 통신 장치를 통해서 구두 프롬프트를 사용자에게 제공하는 구두 프롬프트 제공 단계를 더 포함하는 것인 컴퓨터와의 상호작용 방법.
  13. 제12항에 있어서, 상기 구두 프롬프트 제공 단계는 출력 문법(grammer)을 선택하는 단계와, 상기 출력 문법을 음성 출력으로 변환하는 단계와, 상기 음성 출력을 상기 원격 통신 장치를 통해서 상기 사용자에게 전송하는 단계를 포함하는 것인 컴퓨터와의 상호작용 방법.
  14. 제1항에 있어서, 상기 오디오 신호는 구두 발성인 것인 컴퓨터와의 상호작용 방법.
  15. 제14항에 있어서, 상기 오디오 신호 처리 단계는 상기 구두 발성을 가능한 구두 발성에 대한 복수의 문법과 비교하는 단계와, 상기 문법들 중 상기 사용자가 말한 문법을 판정하는 단계와, 상기 판정된 문법에 대응하는 상기 원하는 기능을 판정하는 단계를 포함하는 것인 컴퓨터와의 상호작용 방법.
  16. 제15항에 있어서, 상기 가능한 구두 발성에 대한 복수의 문법은 컴퓨터 파일에 저장되는 것인 컴퓨터와의 상호작용 방법.
  17. 제16항에 있어서, 상기 컴퓨터 파일은 스프레드시트인 것인 컴퓨터와의 상호작용 방법.
  18. 제17항에 있어서, 상기 스프레드시트의 제1 셀로부터 가능한 구두 발성의 문법을 선택하는 단계와, 상기 스프레드시트의 제2 셀로부터 상기 원하는 기능을 판정하는 단계를 더 포함하는 것인 컴퓨터와의 상호작용 방법.
  19. 제18항에 있어서, 상기 제1 셀은 상기 스프레드시트의 제1 행에 있고, 상기 제2 셀은 상기 스프레드시트의 제2 행에 있는 것인 컴퓨터와의 상호작용 방법.
  20. 제18항에 있어서, 상기 제1 셀은 상기 스프레드시트의 제1 열에 있고, 상기 제2 셀은 상기 스프레드시트의 제2 열에 있는 것인 컴퓨터와의 상호작용 방법.
  21. 제16항에 있어서, 상기 컴퓨터 파일은 데이터베이스인 것인 컴퓨터와의 상호작용 방법.
  22. 제16항에 있어서, 상기 컴퓨터 파일은 스케쥴링 프로그램과 관련된 파일인 것인 컴퓨터와의 상호작용 방법.
  23. 제1항에 있어서, 상기 오디오 신호에 응답하여 상기 원하는 기능을 수행하는단계는 상기 오디오 신호에 따라서 데이터를 위치파악하는 단계를 포함하고, 상기 구두 응답을 제공하는 단계는 상기 데이터를 구두 형식으로 변환하는 단계와 상기 구두 형식을 상기 통신 연결을 통해서 전송하는 단계를 포함하는 것인 컴퓨터와의 상호작용 방법.
  24. 제1항에 있어서, 상기 오디오 신호에 응답하여 상기 원하는 기능을 수행하는단계는 상기 오디오 신호에 따라서 저장된 데이터를 수정시키는 단계를 포함하는 것인 컴퓨터와의 상호작용 방법.
  25. 제24항에 있어서, 상기 사용자로부터 새로운 데이터를 수신하는 단계와 상기 새로운 데이터를 파일에 기록하는 단계를 더 포함하는 것인 컴퓨터와의 상호작용 방법.
  26. 제25항에 있어서, 상기 파일은 데이터베이스인 것인 컴퓨터와의 상호작용 방법.
  27. 제25항에 있어서, 상기 파일은 스프레드시트인 것인 컴퓨터와의 상호작용 방법.
  28. 제25항에 있어서, 상기 파일은 스케쥴링 파일인 것인 컴퓨터와의 상호작용 방법.
  29. 사용자와 통신하도록 퍼스널 컴퓨터를 구동시키는 방법으로서,
    데이터 파일의 엔트리를 판독하는 엔트리 판독 단계와,
    상기 엔트리에 응답하여 상기 컴퓨터와 원격 통신 장치간의 통신 연결을 개시하는 통신 연결 개시 단계와,
    상기 엔트리에 따라서 오디오 통보를 발생하는 오디오 통보 발생 단계와,
    상기 원격 통신 장치를 통해서 상기 오디오 통보를 전송하는 오디오 통보 전송 단계
    를 포함하는 퍼스널 컴퓨터 구동 방법.
  30. 제29항에 있어서, 상기 통신 연결 개시 단계는 전화 통신 링크를 구축하는 단계를 포함하는 것인 퍼스널 컴퓨터 구동 방법.
  31. 제30항에 있어서, 상기 전화 통신 링크는 휴대 전화 통신망에 의한 것인 퍼스널 컴퓨터 구동 방법.
  32. 제29항에 있어서, 상기 통신 연결 개시 단계는 VoIP 연결을 구축하는 단계를 포함하는 것인 퍼스널 컴퓨터 구동 방법.
  33. 제29항에 있어서, 상기 통신 연결 개시 단계는 상기 컴퓨터를 이용하여 직접 무선 통신 링크를 구축하는 단계를 포함하는 것인 퍼스널 컴퓨터 구동 방법.
  34. 제33항에 있어서, 상기 통신 연결 개시 단계는 VoIP 연결을 구축하는 단계를 더 포함하는 것인 퍼스널 컴퓨터 구동 방법.
  35. 제29항에 있어서, 상기 엔트리 판독 단계는 상기 데이터 파일을 메모리에 로딩하는 단계와, 상기 데이터 파일 내에서 상기 사용자와 접촉하는 시간을 나타내는 엔트리를 인식하는 단계를 포함하는 것인 퍼스널 컴퓨터 구동 방법.
  36. 제35항에 있어서, 상기 데이터 파일에는 가능한 구두 발성의 문법이 저장되는 것인 퍼스널 컴퓨터 구동 방법.
  37. 제36항에 있어서, 상기 데이터 파일은 스프레드시트인 것인 퍼스널 컴퓨터 구동 방법.
  38. 제36항에 있어서, 상기 데이터 파일은 데이터베이스인 것인 퍼스널 컴퓨터 구동 방법.
  39. 제36항에 있어서, 상기 데이터 파일은 경보 스크립트인 것인 퍼스널 컴퓨터 구동 방법.
  40. 제36항에 있어서, 상기 데이터 파일은 스케쥴링 프로그램에 관련되는 것인 퍼스널 컴퓨터 구동 방법.
  41. 퍼스널 컴퓨터에 액세스하는 시스템으로서,
    상기 컴퓨터와 원격 통신 장치간에 통신 채널을 구축하는 통신 컴포넌트와,
    오디오 입력을 수신하여 이 오디오 입력을 디지털 형태로 변환하는 음성 인식 컴포넌트와,
    문자 데이터를 구두 형태로 변환하는 문자-음성 컴포넌트와,
    상기 데이터를 내부에 저장한 파일과 상호작용하는 파일 인터페이스 컴포넌트와,
    인터페이스 프로그램
    을 포함하고,
    상기 인터페이스 프로그램은 상기 통신 채널을 통해서 상기 오디오 입력을 수신하여, 상기 음성 인식 컴포넌트로 하여금 상기 오디오 입력을 변환하여 원하는 기능을 판정하게 하며, 소정의 컴포넌트로 하여금 상기 원하는 기능을 수행하게 하는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  42. 제41항에 있어서, 상기 인터페이스 프로그램은 추가로, 상기 파일 인터페이스로 하여금 상기 원하는 기능에 따라서 상기 파일과의 상호작용을 하게 하고, 상기 문서-음성 컴포넌트로 하여금 상기 원하는 기능의 결과를 구두 형태로 상기 원격 통신 장치에 제공하게 하는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  43. 제41항에 있어서, 상기 인터페이스 프로그램은 추가로, 상기 파일 인터페이스로 하여금 상기 파일 내의 데이터를 판독하게 하고, 상기 통신 컴포넌트로 하여금 상기 데이터에 응답하여 상기 원격 통신 장치와의 통신 채널을 구축하게 하며, 상기 문자-음성 컴포넌트로 하여금 상기 데이터에 따라서 메시지를 발생시키게 하고, 상기 통신 컴포넌트로 하여금 상기 메시지를 전송하게 하는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  44. 제41항에 있어서, 상기 액세스 시스템은 사운드를 발생시키는 사운드 발생 컴포넌트를 더 포함하고, 상기 인터페이스 프로그램은 추가로, 상기 파일 인터페이스로 하여금 상기 파일 내의 데이터를 판독하게 하고, 상기 통신 컴포넌트로 하여금 상기 데이터에 응답하여 상기 원격 통신 장치와의 통신 채널을 구축하게 하며, 상기 사운드 발생 컴포넌트로 하여금 상기 사운드를 발생시키게 하고, 상기 통신 컴포넌트로 하여금 상기 사운드를 전송하게 하는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  45. 제41항에 있어서, 상기 통신 채널은 상기 컴퓨터에서, 상기 컴퓨터와 케이블로 연결된 휴대 전화, 개인용 휴대 컴퓨팅 전화 장치, 코드리스 전화, 전화 게이트웨이 장치, 또는 상기 컴퓨터와 케이블로 연결된 유선 전화 중 하나에 의해서 구축되는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  46. 제41항에 있어서, 상기 통신 채널은 상기 원격 통신 장치에서, 휴대 전화, 코드리스 전화, 유선 전화, 스피커폰, 전화용 소프트웨어를 갖는 제2 컴퓨터, VoIP 연결 기능을 갖는 제2 컴퓨터, 또는 인스턴트 메시징 소프트웨어를 갖는 제2 컴퓨터 중 하나에 의해서 구축되는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  47. 제41항에 있어서, 상기 통신 채널은 PSTN 네트워크, 휴대 전화 네트워크, VoIP 인터넷 프로토콜 네트워크, 또는 라디오 네트워크 중 하나에 의해서 구축되는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  48. 제47항에 있어서, 상기 통신 채널은 복수의 네트워크에 의해서 구축되는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  49. 제41항에 있어서, 상기 오디오 입력은 요구 형태의 구두 발성인 것인 퍼스널 컴퓨터에의 액세스 시스템.
  50. 제41항에 있어서, 상기 오디오 입력은 DTMF 신호인 것인 퍼스널 컴퓨터에의 액세스 시스템.
  51. 제49항에 있어서, 상기 인터페이스 프로그램은 상기 원하는 기능에 따라서 컴포넌트를 선택하여, 이 선택된 컴포넌트로 하여금 상기 구두 발성에 따라서 상기 원하는 기능을 수행하게 하는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  52. 제51항에 있어서, 상기 원하는 기능은 상기 저장된 데이터를 검색하는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  53. 제51항에 있어서, 상기 원하는 기능은 상기 저장된 데이터를 수정시키는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  54. 제51항에 있어서, 상기 원하는 기능은 새로운 데이터를 상기 컴퓨터에 추가시키는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  55. 제51항에 있어서, 상기 원하는 기능은 새로운 파일을 생성시키는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  56. 제51항에 있어서, 상기 원하는 기능은 작업을 수행시키는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  57. 제51항에 있어서, 상기 선택된 컴포넌트는 오디오 전송을 기록하는 소프트웨어, 오디오 전송을 발생하는 소프트웨어, 하드웨어 장치를 제어하는 소프트웨어, 또는 소프트웨어 작동을 제어하는 소프트웨어 중 하나인 것인 퍼스널 컴퓨터에의 액세스 시스템.
  58. 제49항에 있어서, 상기 음성 인식 컴포넌트는 음성 인식 모듈인 것인 퍼스널 컴퓨터에의 액세스 시스템.
  59. 제49항에 있어서, 상기 음성 인식 컴포넌트는 DTMF 디코더인 것인 퍼스널 컴퓨터에의 액세스 시스템.
  60. 제41항에 있어서, 상기 음성 인식 컴포넌트, 문자-음성 컴포넌트 및 파일 인터페이스 컴포넌트는 애플리케이션 프로그램 인터페이스인 것인 퍼스널 컴퓨터에의 액세스 시스템.
  61. 제41항에 있어서, 상기 음성 인식 컴포넌트, 문자-음성 컴포넌트 및 파일 인터페이스 컴포넌트는 소프트웨어 애플리케이션인 것인 퍼스널 컴퓨터에의 액세스 시스템.
  62. 제41항에 있어서, 상기 파일은 스프레드시트, e-메일 서버 및 e-메일 클라이언트, 데이터베이스, 모니터, 센서, 워드 프로세싱 파일 또는 기업용 애플리케이션 데이터 중 하나인 것인 퍼스널 컴퓨터에의 액세스 시스템.
  63. 제62항에 있어서, 상기 파일은 복수의 파일을 포함하는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  64. 제41항에 있어서, 상기 파일 인터페이스 컴포넌트는 인터넷 데이터와의 링크 기능을 갖는 스프레드시트와 인터페이싱하는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  65. 제41항에 있어서, 상기 파일 인터페이스 컴포넌트는 인터넷 데이터와의 링크 기능을 갖는 데이터베이스와 인터페이싱하는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  66. 제41항에 있어서, 상기 파일 인터페이스 컴포넌트는 인터넷 데이터와의 링크 기능을 갖는 워드 프로세싱 파일과 인터페이싱하는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  67. 제41항에 있어서, 상기 파일 인터페이스 컴포넌트는 인터넷 데이터와의 링크 기능을 갖는 스케쥴링 파일과 인터페이싱하는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  68. 제41항에 있어서, 상기 인터페이스 프로그램은 추가로 상기 통신 채널을 구축하여 상기 문자-음성 컴포넌트로 하여금 상기 원격 통신 장치에게 구두 경보를 발생시키게 하는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  69. 제68항에 있어서, 상기 인터페이스 프로그램은 상기 저장된 데이터에 응답하여 상기 통신 채널을 구축하는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  70. 제69항에 있어서, 상기 저장된 데이터는 경보에 대응하는 것인 퍼스널 컴퓨터에의 액세스 시스템.
  71. 컴퓨터와 인터페이싱하기 위한 컴퓨터 실행가능한 명령을 수록한 컴퓨터 판독가능한 매체에 있어서,
    상기 컴퓨터와 원격 통신 장치간의 통신 연결을 구축하는 통신 연결 구축 단계와,
    사용자로부터의 요구의 형태로 오디오 신호를 수신하는 오디오 신호 수신 단계와,
    상기 오디오 신호를 처리하여 원하는 기능을 판정하는 오디오 신호 처리 단계와,
    상기 원하는 기능이 구두 응답을 필요로 하는지 여부를 판정하고, 그런 경우에는, 구두 응답을 상기 원격 통신 장치를 통해서 상기 사용자에게 제공하며, 상기 오디오 신호에 응답하여 상기 원하는 기능을 수행하는 판정 단계
    를 실행하게 하는 컴퓨터 실행가능한 매체.
  72. 제71항에 있어서, 상기 통신 연결 구축 단계는 상기 컴퓨터에 의해서 개시되는 것인 컴퓨터 실행가능한 매체.
  73. 제71항에 있어서, 상기 통신 연결 구축 단계는 상기 원격 통신 장치에 의해 상기 사용자에 의해서 개시되는 것인 컴퓨터 실행가능한 매체.
  74. 제71항에 있어서, 상기 원격 통신 장치에 의해서 구두 프롬프트를 사용자에게 제공하는 구두 프롬프트 제공 단계를 더 포함하는 것인 컴퓨터 실행가능한 매체.
  75. 제74항에 있어서, 상기 구두 프롬프트 제공 단계는 출력 문법을 선택하는 단계와, 상기 출력 문법을 음성 출력으로 변환하는 단계와, 상기 원격 통신 장치에 의해서 상기 음성 출력을 상기 사용자에게 전송하는 단계를 포함하는 것인 컴퓨터 실행가능한 매체.
  76. 제71항에 있어서, 상기 오디오 신호는 구두 발성인 것인 컴퓨터 실행가능한 매체.
  77. 제76항에 있어서, 상기 오디오 신호 처리 단계는 상기 구두 발성을 가능한 구두 발성에 대한 복수의 문법과 비교하는 단계와, 상기 문법들 중에서 상기 사용자가 구두로 말한 문법을 판정하는 단계와, 상기 문법에 대응하는 원하는 기능을 판정하는 단계를 포함하는 것인 컴퓨터 실행가능한 매체.
  78. 제77항에 있어서, 상기 가능한 구두 발성에 대한 복수의 문법은 컴퓨터 파일에 저장되는 것인 컴퓨터 실행가능한 매체.
  79. 제78항에 있어서, 상기 컴퓨터 파일은 스프레드시트인 것인 컴퓨터 실행가능한 매체.
  80. 제79항에 있어서, 상기 스프레드시트의 제1 셀로부터 상기 가능한 구두 발성에 대한 문법을 선택하는 단계와, 상기 스프레드시트의 제2 셀로부터 상기 원하는 기능을 판정하는 단계를 더 포함하는 것인 컴퓨터 실행가능한 매체.
  81. 제80항에 있어서, 상기 제1 셀은 상기 스프레드시트의 제1 행에 있고, 상기 제2 셀은 상기 스프레드시트의 제2 행에 있는 것인 컴퓨터 실행가능한 매체.
  82. 제80항에 있어서, 상기 제1 셀은 상기 스프레드시트의 제1 열에 있고, 상기 제2 셀은 상기 스프레드시트의 제2 열에 있는 것인 컴퓨터 실행가능한 매체.
  83. 제76항에 있어서, 상기 구두 발성에 응답하여 상기 원하는 기능을 수행하는 단계는 상기 구두 발성에 따라서 데이터를 위치파악하는 단계를 포함하고, 상기 구두 응답을 제공하는 단계는 상기 데이터를 구두 형태로 변환시키는 단계와 상기 구두 형태를 상기 통신 연결에 의해서 전송하는 단계를 포함하는 것인 컴퓨터 실행가능한 매체.
  84. 사용자와 통신하도록 퍼스널 컴퓨터를 구동하기 위한 컴퓨터 실행가능한 명령을 수록한 컴퓨터 판독가능한 매체에 있어서,
    데이터 파일의 엔트리를 판독하는 엔트리 판독 단계와,
    상기 엔트리에 응답하여 상기 컴퓨터와 원격 통신 장치간의 통신 연결을 개시하는 통신 연결 개시 단계와,
    상기 엔트리에 따라서 오디오 통보를 발생하는 오디오 통보 발생 단계와,
    상기 원격 통신 장치에 의해서 상기 오디오 통보를 전송하는 오디오 통보 전송 단계
    를 실행하게 하는 컴퓨터 실행가능한 매체.
  85. 제84항에 있어서, 상기 통신 연결 개시 단계는 전화 통신 링크를 구축하는 단계를 포함하는 것인 컴퓨터 실행가능한 매체.
  86. 제84항에 있어서, 상기 엔트리 판독 단계는 상기 데이터 파일을 메모리에 로드시키는 단계와, 상기 데이터 파일 내에서 상기 사용자와 접촉하는 시간을 나타내는 엔트리를 인식하는 단계를 포함하는 것인 컴퓨터 실행가능한 매체.
KR1020057005793A 2002-10-01 2003-10-01 컴퓨터를 이용한 무선 오디오 통신 시스템 및 방법 KR20050083716A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US41531102P 2002-10-01 2002-10-01
US60/415,311 2002-10-01
US45773203P 2003-03-25 2003-03-25
US60/457,732 2003-03-25

Publications (1)

Publication Number Publication Date
KR20050083716A true KR20050083716A (ko) 2005-08-26

Family

ID=32073368

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057005793A KR20050083716A (ko) 2002-10-01 2003-10-01 컴퓨터를 이용한 무선 오디오 통신 시스템 및 방법

Country Status (7)

Country Link
US (1) US20050272415A1 (ko)
EP (1) EP1576739A4 (ko)
JP (1) JP2006501788A (ko)
KR (1) KR20050083716A (ko)
AU (1) AU2003275388A1 (ko)
CA (1) CA2500574A1 (ko)
WO (1) WO2004032353A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100742667B1 (ko) * 2005-09-15 2007-07-25 (주) 코아보이스 휴대가능한 음성 인식 및 합성장치 및 이를 이용한 음성 인식 및 합성방법
KR101329465B1 (ko) * 2009-03-04 2013-11-13 알까뗄 루슨트 여러 프로세서들을 사용하는 시스템 테스트 방법 및 장치
KR101373382B1 (ko) * 2006-05-31 2014-03-13 삼성전자주식회사 원격 장치 액세스 및 제어를 제공하기 위한 방법, 저장 매체 및 원격 장치

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050180464A1 (en) * 2002-10-01 2005-08-18 Adondo Corporation Audio communication with a computer
US7808969B2 (en) * 2005-06-10 2010-10-05 Hewlett-Packard Development Company, L.P. Voice over internet protocol (VoIP) ready computer system and method
US20070008912A1 (en) * 2005-06-23 2007-01-11 Cheng-Su Huang Method For Establishing Telephone Communication With A Wireless Web Phone In A Wireless Communication System
EP2082395A2 (en) * 2006-09-14 2009-07-29 Google, Inc. Integrating voice-enabled local search and contact lists
US20080144134A1 (en) * 2006-10-31 2008-06-19 Mohamed Nooman Ahmed Supplemental sensory input/output for accessibility
US8995626B2 (en) * 2007-01-22 2015-03-31 Microsoft Technology Licensing, Llc Unified and consistent user experience for server and client-based services
US8626237B2 (en) 2007-09-24 2014-01-07 Avaya Inc. Integrating a cellular phone with a speech-enabled softphone
US8477921B2 (en) * 2010-06-30 2013-07-02 International Business Machines Corporation Managing participation in a teleconference by monitoring for use of an unrelated term used by a participant
US9330090B2 (en) * 2013-01-29 2016-05-03 Microsoft Technology Licensing, Llc. Translating natural language descriptions to programs in a domain-specific language for spreadsheets
US9747900B2 (en) * 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5661787A (en) * 1994-10-27 1997-08-26 Pocock; Michael H. System for on-demand remote access to a self-generating audio recording, storage, indexing and transaction system
US5752232A (en) * 1994-11-14 1998-05-12 Lucent Technologies Inc. Voice activated device and method for providing access to remotely retrieved data
US6069890A (en) * 1996-06-26 2000-05-30 Bell Atlantic Network Services, Inc. Internet telephone service
WO1998024225A1 (en) * 1996-11-28 1998-06-04 British Telecommunications Public Limited Company Interactive apparatus
US6292480B1 (en) * 1997-06-09 2001-09-18 Nortel Networks Limited Electronic communications manager
US6636733B1 (en) * 1997-09-19 2003-10-21 Thompson Trust Wireless messaging method
US5950167A (en) * 1998-01-26 1999-09-07 Lucent Technologies Inc. Screen-less remote voice or tone-controlled computer program operations via telephone set
DE19835138A1 (de) * 1998-03-31 1999-10-07 Christoph Keller Verfahren zum Trennen von wenigstens einem ggf. in einer Strangpresse hergestellten Werkzeugprofil
US6792082B1 (en) * 1998-09-11 2004-09-14 Comverse Ltd. Voice mail system with personal assistant provisioning
US6577861B2 (en) * 1998-12-14 2003-06-10 Fujitsu Limited Electronic shopping system utilizing a program downloadable wireless telephone
SE525728C2 (sv) * 1999-01-27 2005-04-12 Ericsson Telefon Ab L M Portabel telekommunikationsanordning för flera ljudtillbehör
US6493324B1 (en) * 1999-03-29 2002-12-10 Worldcom, Inc. Multimedia interface for IP telephony
US6415257B1 (en) * 1999-08-26 2002-07-02 Matsushita Electric Industrial Co., Ltd. System for identifying and adapting a TV-user profile by means of speech technology
US6650871B1 (en) * 1999-10-14 2003-11-18 Agere Systems Inc. Cordless RF range extension for wireless piconets
US6823370B1 (en) * 1999-10-18 2004-11-23 Nortel Networks Limited System and method for retrieving select web content
US6546262B1 (en) * 1999-11-12 2003-04-08 Altec Lansing Technologies, Inc. Cellular telephone accessory device for a personal computer system
AU2279801A (en) * 1999-12-20 2001-07-03 Audiopoint, Inc. System for on-demand delivery of user-specific audio content
US6270651B1 (en) * 2000-02-04 2001-08-07 Abetif Essalik Gas component sensor
GB0008383D0 (en) * 2000-04-05 2000-05-24 Sontora Limited System and method for providing an internet audio stream to a wap mobile telephone or the like over a computer nrework
US20010042960A1 (en) * 2000-05-16 2001-11-22 Lewis Michael L. Casino card gaming method and apparatus
JP2002051164A (ja) * 2000-05-24 2002-02-15 Victor Co Of Japan Ltd 音声コンテンツ試聴システム及びシステムサーバ並びに携帯電話機
US6570969B1 (en) * 2000-07-11 2003-05-27 Motorola, Inc. System and method for creating a call usage record
GB2365262B (en) * 2000-07-21 2004-09-15 Ericsson Telefon Ab L M Communication systems
US7095733B1 (en) * 2000-09-11 2006-08-22 Yahoo! Inc. Voice integrated VOIP system
US6556563B1 (en) * 2000-09-11 2003-04-29 Yahoo! Inc. Intelligent voice bridging
US6621502B1 (en) * 2001-05-02 2003-09-16 Awa, Inc. Method and system for decoupled audio and video presentation
US6594483B2 (en) * 2001-05-15 2003-07-15 Nokia Corporation System and method for location based web services
US7006968B2 (en) * 2001-10-11 2006-02-28 Hewlett-Packard Development Company L.P. Document creation through embedded speech recognition
US20030115203A1 (en) * 2001-12-19 2003-06-19 Wendell Brown Subscriber data page for augmenting a subscriber connection with another party
US20030187657A1 (en) * 2002-03-26 2003-10-02 Erhart George W. Voice control of streaming audio
US7190950B1 (en) * 2002-06-27 2007-03-13 Bellsouth Intellectual Property Corporation Storage of voicemail messages at an alternate storage location
US7391763B2 (en) * 2002-10-23 2008-06-24 International Business Machines Corporation Providing telephony services using proxies

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100742667B1 (ko) * 2005-09-15 2007-07-25 (주) 코아보이스 휴대가능한 음성 인식 및 합성장치 및 이를 이용한 음성 인식 및 합성방법
KR101373382B1 (ko) * 2006-05-31 2014-03-13 삼성전자주식회사 원격 장치 액세스 및 제어를 제공하기 위한 방법, 저장 매체 및 원격 장치
KR101329465B1 (ko) * 2009-03-04 2013-11-13 알까뗄 루슨트 여러 프로세서들을 사용하는 시스템 테스트 방법 및 장치

Also Published As

Publication number Publication date
EP1576739A1 (en) 2005-09-21
EP1576739A4 (en) 2006-11-08
JP2006501788A (ja) 2006-01-12
AU2003275388A1 (en) 2004-04-23
CA2500574A1 (en) 2004-04-15
WO2004032353A1 (en) 2004-04-15
US20050272415A1 (en) 2005-12-08

Similar Documents

Publication Publication Date Title
US20060276230A1 (en) System and method for wireless audio communication with a computer
US20050180464A1 (en) Audio communication with a computer
US7421390B2 (en) Method and system for voice control of software applications
JP4348944B2 (ja) マルチチャネル通信方法、マルチチャネル電気通信システム、汎用コンピューティング装置、電気通信インフラストラクチャ、及びマルチチャネル通信プログラム
EP2008193B1 (en) Hosted voice recognition system for wireless devices
US8868425B2 (en) System and method for providing network coordinated conversational services
RU2491617C2 (ru) Способ и устройство для реализации распределенных мультимодальных приложений
US20050048992A1 (en) Multimode voice/screen simultaneous communication device
US7308484B1 (en) Apparatus and methods for providing an audibly controlled user interface for audio-based communication devices
US8831185B2 (en) Personal home voice portal
KR20070026452A (ko) 음성 인터랙티브 메시징을 위한 방법 및 장치
EP1125279A1 (en) System and method for providing network coordinated conversational services
MXPA04010817A (es) Captura de datos multimodal secuencial.
KR20050083716A (ko) 컴퓨터를 이용한 무선 오디오 통신 시스템 및 방법
EP1804237A1 (en) System and method for personalized text to voice synthesis
US20110263228A1 (en) Pre-recorded voice responses for portable communication devices
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
WO2008100420A1 (en) Providing network-based access to personalized user information
KR20220134959A (ko) 업종별 음성인식 엔진 기반의 음성 데이터 처리 시스템 및 방법
Osei Remote Voice Computer Control Via PSTN
KR20030063031A (ko) 실시간 메시지 교환시스템
KR20020019505A (ko) 외국어벨소리 서비스 시스템과 그 제어방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application