KR101109265B1 - 텍스트 입력 방법 - Google Patents

텍스트 입력 방법 Download PDF

Info

Publication number
KR101109265B1
KR101109265B1 KR1020040091318A KR20040091318A KR101109265B1 KR 101109265 B1 KR101109265 B1 KR 101109265B1 KR 1020040091318 A KR1020040091318 A KR 1020040091318A KR 20040091318 A KR20040091318 A KR 20040091318A KR 101109265 B1 KR101109265 B1 KR 101109265B1
Authority
KR
South Korea
Prior art keywords
word
text entry
character
utterance
character input
Prior art date
Application number
KR1020040091318A
Other languages
English (en)
Other versions
KR20050071334A (ko
Inventor
아세로알레잔드로
왕쿠안산
마하잔밀린드브이.
후앙수동데이비드
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20050071334A publication Critical patent/KR20050071334A/ko
Application granted granted Critical
Publication of KR101109265B1 publication Critical patent/KR101109265B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)
  • Input From Keyboards Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)
  • Character Discrimination (AREA)

Abstract

장치 내로 텍스트를 입력하는 방법에서 텍스트 엔트리의 제1 문자를 나타내는 제1 문자 입력이 제공된다. 다음, 텍스트 엔트리의 발성(vocalization)이 캡쳐된다. 그 후 제1 문자 입력 및 발성의 분석에 기초하여 발성의 제1 워드에 대한 가능한 워드 후보가 식별된다. 최종적으로, 유저에 대하여 가능한 워드 후보가 디스플레이된다.

Description

텍스트 입력 방법{METHOD FOR ENTERING TEXT}
도 1은 본 발명이 이용될 수 있는 예시적인 컴퓨팅 장치의 간략화된 블럭도.
도 2는 본 발명이 이용될 수 있는 모바일 폰의 구성도.
도 3은 본 발명의 일 실시예에 따라, 일 장치 내로 텍스트를 입력하는 방법을 도시하는 흐름도.
도 4는 본 발명의 방법을 실행하는데 이용될 수 있는 예시적인 시스템의 블럭도.
도 5는 본 발명의 실시예들에 따라 일 장치 내로 텍스트를 입력하는 방법을 도시하는 흐름도.
도 6은 본 발명의 실시예들에 따라 일 장치 내로 텍스트를 입력하는 방법을 도시하는 흐름도.
〈도면의 주요부분에 대한 부호의 설명〉
100: 컴퓨팅 장치 102: 제어기 또는 프로세서
104: 컴퓨터 또는 기기 판독가능 메모리
106: 디스플레이 108: 마이크로폰
110: 문자 입력 장치 116: 키패드
122: 키 142: 스피치 인식기
본 발명은 일반적으로 일 장치 내로 텍스트를 입력하는 방법에 관한 것이다. 특히 본 발명은 일 장치 내로의 문자 입력 보조 발성된 텍스트 엔트리에 관한 것이다.
모바일 폰 및 PDA(personal digital assistants)와 같은 소형 컴퓨팅 장치들이 증가하는 빈도로 이용된다. 이 장치들의 계산력(computing power)은 그들이 인터넷을 액세스 및 브라우징하는 것뿐만 아니라 컨택트 정보를 기억하고, 텍스트 문서를 리뷰 및 편집하며, 다른 태스크들을 수행하는데 이용되도록 한다. 또한, 모바일 장치로 텍스트 메시지를 송수신하는 것이 매우 인기 있게 되었다. 예를 들어, 모바일 폰을 위한 SMS(Short Message Service)는 텍스트 메시징 로드맵에서 매우 성공적이었으며, 최근 도입된 EMS(Enhanced Messaging Service)(즉, SMS의 어플리케이션 레벨 확장)는 다가오는 MMS(Multimedia Messaging Service)로의 유연한 전환을 제공할 것이 기대된다. 결과적으로, 이 장치들은 텍스트 엔트리가 요구되는 많은 어플리케이션들을 제공한다. 불행하게도, 모바일 장치상의 그러한 텍스트 엔트리는 표준 풀사이즈 키보드가 부족하므로 성가신 일이 될 수 있다.
현재, 대부분의 모바일 폰, 멀티플 탭 접근(multiple-tap approach), 및 싱글 탭 접근에 기초를 둔 숫자 키패드를 이용하여 텍스트 입력을 달성하는 두 가지 통상적인 방법들이 있다. 멀티플 탭 접근으로, 유저는 원하는 문자를 입력하기 위 하여 많은 횟수에 걸쳐 숫자키를 누르며, 여기서 대부분의 숫자키들은 알파벳의 세개 또는 네개의 문자들이 맵핑되어 있다. 예를 들어, 2 키는 문자 A, B, 및 C가 맵핑되는 것이 보통이다. 만일 유저가 2 키를 한 번 누르면, 문자 A가 입력된다. 만일 유저가 2 키를 두번 누르면, 문자 B가 입력되며, 만일 유저가 2 키를 세번 누르면, 문자 C가 입력된다. 장치가 다음의 문자 입력 위치로 커서를 언제 진행시키는지를 알게 되도록 하기 위하여는 한 워드의 연속적인 문자들의 입력 사이의 일시중지가 때때로 필요하다. 예를 들면, 워드 "cab"을 입력하기 위하여, 유저는 2 키를 3 회 눌러서 문자 C를 입력하고, 일시중지한 후, 2 키를 1 회 눌러서 문자 A를 입력하고, 다시 일시중지후, 2 키를 2 회 눌러서 문자 B를 입력한다. 다른 키들 가운데, 파운드("#") 및 별표("*")와 같은 숫자 키패드상에 존재하는 다른 키들은 보통 심볼들을 입력하거나, 대문자와 소문자 사이에서 전환하도록 맵핑된다.
유저가 숫자키들만을 이용하여 임의의 워드를 입력할 수 있다는 점에서 멀티플 탭 접근이 이용 가능한 한편, 신속하고 직관적인 텍스트 엔트리를 위하여 바람직하지 않다. 표준 키보드에서 세개의 키를 누르는 것(각각의 문자에 대하여 한번)만을 요구하는 "cab"과 같은 워드는 멀티플 탭 접근을 이용하는 숫자키에서는 키를 여섯번 누르는 것이 필요하다. 표준 키보드를 이용하는 것에 비하여, 멀티플 탭 접근으로 숫자키를 이용하여 텍스트 엔트리를 달성하는 것은 유저가 짧은 메시지의 경우에도 많은 키들을 누르는 것을 의미한다. 또한, 에러들이 빈번할 수 있다. 예를 들어, 유저가 문자 B를 입력하려고 하지만, 2 키의 첫번째와 두번째 누름 사이에서 너무 오래 중지하면, 두개의 문자 A가 대신에 입력될 것이다. 이 경 우의 장치는 상기 일시중지를 유저가 현재의 문자(A) 엔트리를 종료한 것으로 해석하고, 다음의 문자 엔트리 위치로 진행하며, 여기서 역시 A를 입력한다.
숫자키를 이용하는 텍스트 엔트리로의 또 다른 접근은 테직(Tegic)으로 불리우는 회사에 의하여 보급된, "T9"와 같은 싱글 탭 딕셔너리 접근(single-tap-dictionary-approach)이다. 싱글 탭 접근에서, 숫자키는 세개 또는 네개의 상이한 문자들로 맵핑될 수 있을 지라도, 유저는 원하는 문자와 연관된 숫자키를 한 번 누른다. 유저가 하나의 워드에 대한 숫자 시퀀스를 입력하는 경우, 장치는 숫자 시퀀스에 기초하여, 유저가 입력하려는 워드를 인식하려는 시도를 한다. 각각의 숫자 시퀀스는 시퀀스에 대응하는 공통 워드로 맵핑된다. 예를 들면, 숫자 시퀀스 43556은 잠재적으로 제1 문자 G, H, 또는 I를 갖는 임의의 다섯 문자 워드에 대응할 수 있으며, 그 이유는 4 키가 이 문자들로 맵핑되어 있기 때문이다. 유사하게, 시퀀스는 잠재적으로 제2 문자 D, E, 또는 F, 문자 J, K, 및 L로부터 선택된 제3 및 제4 문자, 및 제5 문자 M, N, 또는 O를 갖는 임의의 다섯 문자 워드에 대응하며, 그 이유는 3, 5, 및 6 키는 이 각각의 문자들로 맵핑되는 것이 보통이기 때문이다. 그러나, 숫자 시퀀스 43556에 대응하는 가장 공통적인 다섯 문자 워드는 "hello"이므로, 싱글 탭 접근은 유저가 4, 3, 5, 5, 및 6 키를 연속하여 눌러서 이 숫자 시퀀스를 입력하는 경우 이 워드를 항상 입력할 수 있다.
싱글 탭 접근은 멀티플 탭 접근에 비하여 장점들을 갖지만, 새로운 단점들을 보인다. 바람직하게는, 싱글 탭 접근은, 높은 확률로, 유저가 원하는 워드내의 문자의 숫자와 동일한 키의 숫자를 눌러야만 하는 것을 확실하게 한다. 예를 들면, 멀티플 탭 접근은 유저가 워드 "cab"을 입력하기 위하여 2 키를 6 회 누를 것을 요구한다. 역으로, 싱글 탭 접근은 숫자 시퀀스 222가 워드 "cab"으로 맵핑되는 것을 가정하고, 잠재적으로 유저가 이 워드를 입력하기 위하여 2 키를 3 회 누르는 것만을 요구한다. 따라서, 싱글 탭 접근은 숫자키를 이용한 텍스트 엔트리의 경우 멀티플 탭 접근에 비하여 더욱 키 효율적(key-efficient)이다. 그것은 각각의 문자에 대하여 단일의 키를 갖는 표준 키보드를 이용하는 것만큼이나 키효율적이다.
싱글 탭 접근은 소정의 숫자 시퀀스로 맵핑된 워드는 상기 시퀀스를 입력함으로써 유저가 입력하려고 했던 워드가 아닐 수 있다는 점에서 불리하다. 예를 들어, 숫자키 시퀀스 7333은 워드 "send" 및 "reed" 모두에 대응한다. 각각의 숫자키 시퀀스로 하나의 워드만이 맵핑되므로, 유저가 숫자키 시퀀스 7333을 입력하는 경우 워드 "seed"가 입력될 수 있는 한편, 유저는 워드 "reed"를 입력하려고 의도하였을 수도 있다. 싱글 탭 접근은 소정의 숫자키 시퀀스에 대하여 하나의 고유한 워드만이 존재하는 경우, 또는 만일 소정의 시퀀스에 대하여 다수의 워드들이 존재한다면, 유저가 상기 시퀀스와 연관된 가장 공통적인 워드를 입력하기를 바라는 경우에 주로 유용하다. 싱글 탭 접근에 의하여 맵핑된 워드가 의도된 워드가 아닌 경우에, 텍스트 엔트리는 멀티플 탭 접근으로 복귀하거나 에러정정 모드로 복귀할 수 있다. 그 후, 의도된 워드의 궁극적인 텍스트 엔트리는 유저가 멀티플 탭 접근으로 시작하였을 경우보다 더 많은 키스트로크를 요구할 수 있다.
종래의 키보드의 이용 이외의 텍스트를 입력하는 또 다른 방법은 스피치 인식 시스템(speech recognition system)의 이용을 통한 것이다. 그런 시스템에서, 유저는 마이크로폰을 통하여 컴퓨팅 장치에 의해 캡쳐되고 디지털화되는 텍스트 엔트리를 발성화시킨다. 상기 디지털화된 캡쳐된 스피치의 샘플들로 스펙트럼 분석이 적용되며 각각의 샘플에 대하여 특성 벡터(feature vectors) 또는 코드 워드(code words)가 생성된다. 그 후, 나중에 비터비 디코딩 프로세스(Viterbi decoding process) 또는 유사한 형태의 프로세싱 기술을 실행하는데 이용되는 히든 마르코프 모델(Hidden Markov Models)과 같은 통계적 모델에 대하여 출력확률이 계산될 수 있다. 스피치 유니트들을 나타내는 음향 모델이 검색되어 특성 벡터 또는 코드 워드 및, 따라서, 시스템의 유저로부터 수신된 발음(utterance)에 의하여 표현되는 유사한 음소들을 결정한다. 발성된 워드 후보의 렉시콘(lexicon)이 검색되어 특성 벡터 또는 코드 워드를 나타낼 가능성이 가장 높은 워드를 결정한다. 또한, 언어 모델이 이용되어 스피치 인식 시스템에 의하여 생성된 워드의 정확도를 향상시킬 수 있다. 일반적으로 언어 모델은 이전의 워드에 기초할 가능성이 가장 높은 것들로 후보 워드를 제한함으로써 스피치 인식 시스템의 정확도를 향상시키도록 동작한다. 캡쳐된 발성화된 텍스트 엔트리의 워드가 식별되면, 그것은 컴퓨팅 시스템에서 텍스트로서 입력된다.
발성화된 텍스트 엔트리를 프로세스하고 적당히 정확한 결과들을 만들기 위하여 스피치 인식 시스템은 상당한 프로세싱 전력을 요구한다. 장래의 모바일 장치들이 그러한 스피치 인식 시스템을 실시할 수 있을지라도, 현재의 모바일 컴퓨팅 장치들은 유용한 방법으로 그렇게 하기 위하여 필요한 프로세싱 전력이 부족하다. 또한, 모바일 컴퓨팅 장치들은 보통은 큰 어휘 연속 스피치 인식을 위하여 필요한 메모리 용량이 부족하다. 따라서, 모바일 컴퓨팅 장치들은 제한된 키보드를 이용하는 전술된 텍스트 엔트리 방법에 의존하였다.
모바일 컴퓨팅 장치들을 포함하는 장치 내로 텍스트를 입력하는 향상된 방법에 대한 지속적인 요구가 있다.
발명의 개요
본 발명은 일반적으로는 일 장치 내로 텍스트를 입력하는 방법에 관한 것이다. 이 방법에서는, 텍스트 엔트리의 제1 문자를 나타내는 제1 문자 입력이 제공된다. 다음, 텍스트 엔트리의 발성이 캡쳐된다. 그 후, 제1 문자 입력 및 발성의 분석에 기초하여 발성의 제1 워드에 대한 가능한 워드 후보가 식별된다. 최종적으로, 가능한 워드 후보가 유저에 대하여 디스플레이된다.
바람직한 실시예의 상세한 설명
본 발명은 일반적으로 컴퓨팅 장치 내로 텍스트를 입력하는 방법에 관한 것이다. 본 발명의 방법은 종래의 풀사이즈 키보드를 포함하는 컴퓨팅 장치내에서 실시될 수 있지만, 그러한 키보드가 부족한 모바일 컴퓨팅 장치와 연계하여 이용되는 경우에 가장 유용하다.
도 1은 본 발명이 실시될 수 있는 예시적인 컴퓨팅 장치(100)의 블럭도이다. 장치(100)는 예를 들면, 종래의 풀사이즈 키보드가 부족한 모바일 폰, PDA(personal digital assistant), 모바일 기억 시스템(예를 들면, MP3 플레이어), 원격제어, 및 다른 모바일 컴퓨팅 장치와 같은 모바일 컴퓨팅 장치일 수 있다. 장치(100)는 본 발명을 위한 적절한 컴퓨팅 환경의 일 예일 뿐이며 본 발명의 이용 또는 기능성의 범위에 대한 어떠한 제한을 제시하려는 것이 아니다. 또한, 장치(100)는 도 1에 예시된 구성요소들중 어느 하나 또는 조합에 관한 어떠한 의존이나 요건을 갖는 것으로 해석되어서는 안된다.
장치(100)는 제어기 또는 프로세서(102), 컴퓨터 또는 기기 판독가능 메모리(104), 디스플레이(106), 마이크로폰(108), 및 문자 입력 장치(110)를 포함할 수 있다. 메모리(104)는 프로세서(102)에 의하여 액세스될 수 있는 기기 판독가능 메모리이다. 메모리(104)는 휘발성 및 비휘발성 메모리 기억 기술을 포함할 수 있으며, 장치(100)로부터 제거되도록 구성되거나 그 내부에 고정될 수 있다. 예를 들면, 메모리(104)는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기억장치를 포함할 수 있다(그러나 이에 국한하는 것은 아님).
메모리(104)는 본 발명의 방법을 실시하도록 프로세서(102)에 의하여 실행될 수 있는 프로그램 모듈과 같은 명령을 기억하도록 구성된다. 일반적으로, 프로그램 모듈은 특정한 태스크를 수행하거나 특정한 추상 데이터형을 실시하는 루틴, 프로그램, 오브젝트, 구성요소, 데이터 구조 등을 포함한다. 본 발명은 통신 네트워크를 통하여 연결되는 원격 프로세싱 장치에 의하여 태스크들이 수행되는 분산 컴퓨팅 환경에서 실시될 수도 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 기억장치 모두에 위치될 수 있다.
프로세서(102)는 종래의 컴퓨팅 장치 동작에 따라 디스플레이(106)에서 텍스 트 및 이미지를 디스플레이하도록 구성된다. 디스플레이(106)는 임의의 적절한 디스플레이일 수 있다. 모바일 컴퓨팅 장치의 경우, 디스플레이(106)는 보통은, 접촉식(touch-sensitive)일 수 있는 LCD(liquid crystal display)와 같은 소형, 평면 디스플레이다. 대안적으로, 디스플레이(106)는 CRT(cathod-ray tube) 디스플레이와 같은 더 큰 디스플레이, 또는 큰 평면 패널 디스플레이와 같은 더 큰 디스플레이의 다른 유형일 수 있다.
장치(100)의 마이크로폰(108)은 유저에 의하여 이용되어 발성을 입력할 수 있다. 발성은 A/D(analog-to-digital) 컨버터(112)에 의하여 디지털 형태로 변환되는 것이 바람직하다. 후술되는 바와 같이, 장치(100)는 디지털화된 발성을 프로세스하여 발성에 포함되어 있는 가능한 워드 후보들을 추출할 수 있다. 이것은 상기 디지털화된 발성을 처리하도록 프로세서(102)를 이용하여 메모리(104)내에 포함된 스피치 인식 또는 언어 프로세싱 모듈을 실행함으로써 달성되는 것이 일반적이다.
문자 입력 장치(110)는 유저에 의하여 이용되어 영숫자 문자, 심볼, 공간, 등을 장치(100)로의 텍스트 엔트리로서 입력한다. 또한, 문자 입력 장치(110)가 이용되어 선택을 하고, 커서를 이동시키고, 페이지를 스크롤하고, 옵션 및 메뉴를 네비게이트하며, 다른 기능들을 수행할 수 있다. 문자 입력 장치(110)는 종래의 키보드일 수 있지만, 본 발명은 일반적으로 더 소형이고, 더 적은 키를 가지며, 종래의 풀사이즈 키보드에 비하여 제한된 기능성을 갖는 제한된 문자 입력 장치(110)를 가지는 컴퓨팅 장치(100)의 경우에 가장 유용하다. 그런 제한된 문자 입력 장 치(110)를 이용하여 문자를 입력하는 것은 느리고 성가신 일이 될 수 있다.
제한된 문자 입력 장치(110)는 많은 상이한 형태를 취할 수 있다. 보통 PDA에 의하여 이용되는 일부 제한된 문자 입력 장치(110)는 디스플레이(106)와 같은 접촉식 디스플레이에 의하여 형성된다. 그러한 문자 입력 장치(110)는 접촉식 디스플레이(106)상에 미니어처 키보드를 디스플레이함으로써 형성된다. 유저는 종래의 키보드와 유사한 방법에서 스타일러스로 디스플레이된 문자를 접촉함으로써 텍스트 엔트리를 위하여 원하는 문자를 선택할 수 있다. 또 다른 그러한 문자 입력 장치(110)는 유저가 디스플레이(106)상에 문자를 기록하는 것을 허용하거나 스트로크의 특정한 시퀀스로 각각 맵핑되는 입력 문자들을 지정함으로써 그것은 스타일러스를 이용하는 접촉식 디스플레이(106)에 적용될 수 있다. 유저가 입력 장치(110)의 어느 형태를 이용하여 텍스트 엔트리를 제공하면, 텍스트 엔트리는 디스플레이(106)상에 제공된다.
모바일 폰과 같은 모바일 컴퓨팅 장치들은 숫자 키패드의 형태인 제한된 문자 입력 장치(10)를 이용한다. 도 2는 그러한 숫자 키패드(116), 디스플레이(106) 및 마이크로폰(108)을 포함하는 모바일 폰(114)의 형태인 장치(100)의 간략화된 도면이다. 모바일 폰(114)은 본 발명과는 관련 없는 트랜시버(도시하지 않음) 및 다른 구성요소들의 형태인 통신회로뿐만 아니라 스피커(118), 안테나(120)를 포함할 수도 있다.
숫자 키패드(116)는 다수의 숫자키(122) 및 다른 키를 포함한다. 일반적으로, 숫자 키패드(116)는 각각의 문자에 대하여 고유한 키를 갖지 않는다는 점에서 표준 키보드와는 구별된다. 결과적으로, 숫자 키패드(116)는 제한된 문자 입력 장치(110)이다. 키패드(116)는 키의 다음의 숫자를 갖는다: 1 키(122A), 2 키(122B), 3 키(122C), 4 키(122D), 5 키(122E), 6 키(122F), 7 키(122G), 8 키(122H), 9 키(122I), 및 0 키(122K). 숫자 키패드(116)는 별표(*) 키(122J), 및 파운드 표시(#) 키(122L)를 가질 수도 있다. 숫자 키패드(116)는 도 2에 도시된 것들 이상의 다른 특정된 키들, 또는 도 2에 도시된 것들보다 더 적은 키들을 가질 수도 있다. 숫자 키패드(116)의 키(122)는 디스플레이(106)상에 디스플레이된 실제의, 물리적 키, 또는 가상의, 소프트 키일 수 있으며, 여기서 디스플레이(106)는 접촉식 스크린이다.
1 키(122A) 및 0 키(122K)를 제외한, 숫자 키패드(116)의 모든 숫자키(122)는 알파벳의 세개 또는 네개의 문자들에 대응한다. 2 키(122B)는 문자 A, B, 및 C에 대응한다. 3 키(122C)는 문자 D, E, 및 F에 대응한다. 4 키(122D)는 문자 G, H, 및 I에 대응한다. 5 키(122E)는 문자 J, K, 및 L에 대응한다. 6 키(122F)는 문자 M, N, 및 O에 대응한다. 7 키(122G)는 문자 P, Q, R, 및 S에 대응한다. 8 키(122H)는 문자 T, U, 및 V에 대응한다. 최종적으로 9 키(122I)는 문자 W, X, Y, 및 Z에 대응한다. 구두점 문자 및 심볼은 1 키(122A)와 같이 사용되지 않은 키에 포함될 수 있거나, 문자들과 함께 다른 숫자키(122)에 포함될 수도 있다. 또한, 각각의 숫자키(122)는 그 위에 라벨링된 숫자나 심볼을 입력하는데 이용될 수 있다.
모바일 폰과 같은, 종래 기술의 모바일 컴퓨팅 장치는 멀티플 탭 및 싱글 탭 방법을 이용하여 텍스트를 장치(100)내로 입력한다. 그러한 방법들은 텍스트의 각각의 문자들에 대하여 키(122)를 이용하여 하나 이상의 엔트리를 제공할 필요 때문만은 아니라도, 성가시거나 비효율적일 수 있다. 또한, 싱글 탭 방법은 유저가 입력하려고 하는 워드를 인식하는데 종종 실패한다. 예를 들어, 워드 "hello"를 입력하기 위하여, 유저는 연속하여 4 키(122D), 3 키(122C), 5 키(122E) 2회 및 6 키(122F)를 누른다. 숫자 시퀀스 입력된 43556은 워드 "hello" 이외의 다른 워드와 대응할 수 있으므로, 의도된 워드는 불분명하다. 또한, 장치에 의하여 이용된 렉시콘은 특정한 숫자 시퀀스에 부합되는 워드를 포함하며, 유저에 의하여 입력되기를 바라는 워드를 포함하지 않을 수 있다. 이것은 일반적으로 OOV(out-of-vocabulary) 에러를 야기시키며, 이것은 일반적으로 유저로 하여금 장치의 텍스트 엔트리 모드를 싱글 탭 모드로부터 멀티플 탭 모드로 변경하고 원하는 텍스트 엔트리를 처음부터 다시 입력할 것을 요구한다. 결과적으로, 유저는 워드내에 포함된 문자의 숫자에 대한 상당히 많은 숫자키 누름을 수행하도록 강제될 수 있다.
본 발명은 종래 기술의 방법에 비하여 장치(100)내로 원하는 텍스트를 입력하는데 요구되는 키 누름의 횟수를 크게 감소시키도록 동작한다. 이것은 유저 입력과 스피치 인식의 조합을 통하여 달성된다. 결과는 간단하고, 효율적이며 정확한 텍스트 엔트리 시스템이다.
도 3은 본 발명의 다양한 실시예들에 따른 방법의 단계들을 도시하는 흐름도이다. 도 4는 장치(100)에서의 방법의 실시예들을 실행하는데 이용될 수 있는 예시적인 시스템(128)의 블럭도이다. 시스템(128)의 구성요소들은 상기 방법의 다양 한 단계들을 수행하도록 도 1의 프로세서(102)에 의하여 실행가능하고 예를 들면 메모리(104)에 포함되는 프로그램 모듈 및 명령에 대응하는 것이 일반적이다.
단계 132에서, 장치(100)는 텍스트 엔트리 모드로 설정되는 한편, 제1 문자 입력(130)은 유저에 의하여 제공된다. 제1 문자 입력(130)은 유저에 의하여 입력되기를 바라는 텍스트 엔트리의 제1 문자를 나타낸다. 예를 들면, 원하는 텍스트 엔트리가 "BERRY"인 경우 유저는 문자 "B"를 나타내는 제1 문자 입력(130)을 제공한다.
제1 문자 입력(130)은, 예를 들면, 숫자 키패드(116)(도 2), 접촉식 디스플레이, 종래의 키보드, 입력 장치(10)(도 1)의 또 다른 유형, 또는 다른 수단에서의 멀티플 탭 방법을 이용하여 유저에 의하여 직접 입력되는 텍스트 엔트리의 실질적인 제1 문자일 수 있다. 본 발명의 이 실시예의 한 가지 단점은 전술된 바와 같이, 숫자 키패드(116)와 같은 제한된 문자 입력 장치(110)는 유저가 키(122)를 복수회 눌러서 원하는 문자를 입력하도록 강제할 수 있다는 점이다.
제1 문자 입력(130)은 싱글 탭 방법에 따라 유저에 의하여 입력될 수도 있다. 따라서, 숫자 키패드(116)의 경우 유저는 원하는 문자에 대응하는 키(122)를 일회만 눌러야 한다. 따라서, "B"를 입력하기 위하여 유저는 단순히 2 키(122B)를 일회 눌러야 한다. 본 발명의 이 실시예에 따르면, 제1 문자 입력(130)은 "B" 뿐만 아니라 "A" 및 "C"를 나타낸다.
상기 방법의 단계 134에서, 텍스트 엔트리의 발성(136)이 캡쳐된다. 이것은 종래의 스피치 인식 방법에 따라, 마이크로폰(108)내로 텍스트 엔트리(A/D 컨버터 에 의하여 디지털화되고 메모리(104)에 기억되거나 그렇지 않은 경우 프로세서(102)에 의하여 프로세스됨)를 유저가 말함으로써 달성되는 것이 일반적이다. 바람직하게는, 유저에 의하여 제1 문자 입력(130)이 제공된 후 발성(136)이 캡쳐된다.
발성(136)의 캡쳐링은 많은 상이한 방식으로 개시하도록 트리거될 수 있다. 바람직하게는, 텍스트 엔트리의 발성이 개시되어야 함을 유저에게 통지하도록, 예를 들면, 디스플레이(106)상에서 장치(100)에 의하여 표시자가 제공된다. 본 발명의 일 실시예에 따르면, 유저가 상기 방법의 단계 132에서 제1 문자 입력(130)을 제공하는 것에 응답하여 캡쳐링 단계 134가 개시한다. 따라서, 싱글 탭 입력 방법의 경우, 장치(100)의 텍스트 엔트리 모드에 있는 동안 텍스트 엔트리의 제1 문자에 대응하는 숫자키의 누름은 캡쳐링 단계 134를 개시한다. 본 발명의 또 다른 실시예에 따르면, 캡쳐링 단계 134는 문자 입력 장치(110)의 일 키의 누름 및 유지로 개시한다. 이것은 특히 싱글 탭 방법의 경우에 유용하며 여기서는 제1 문자 입력(130)을 지정하기 위하여 단일의 키만이 눌러지지만, 멀티플 탭 및 다른 텍스트 엔트리 입력 방법과 함께 실시될 수 있다. 장치(100)는 캡쳐링 단계 132를 트리거하도록 이용되는 전용 하드 또는 소프트 키를 포함할 수도 있다.
본 발명의 또 다른 실시예에 따르면, 캡쳐링 단계 134는 키 누름 또는 다른 발성 캡쳐 트리거링 이벤트가 검출되기 전에 유저가 조기에 말을 하는 경우를 보상하도록 구성될 수 있다. 이 문제를 다루는 한 가지 방법은 장치(100)가 텍스트 엔트리 모드에서 동작하는 동안 메모리(104)에 유저에 의한 임의의 발성의 수 백 밀 리초를 연속하여 버퍼링하는 것이다. 버퍼링된 발성은 캡쳐링 단계 134동안 스피치 인식기(142)로 제공되는 발성 입력(136)(도 4)의 일부로서 포함될 수 있는 트리거링 이벤트 이전에 개시된 텍스트 엔트리의 "잘못된 개시" 발성을 캡쳐하는데 이용될 수 있다.
캡쳐링 단계 134는 시간의 소정의 주기의 만료 또는 발성된 텍스트 엔트리의 캡쳐를 개시하도록 유지되었던 버튼 또는 키의 해제에 의하여 종료될 수 있다. 대안적으로, 캡쳐링 단계 132는 시스템이 텍스트 엔트리의 발성의 종료를 검출한 후에 종료될 수 있다. 캡쳐링 단계 132가 종료되는 경우, 장치(100)는 그것의 통지를 예를 들면 캡쳐링 단계 132의 개시시에 제공되었던 표시자를 종료함으로써 유저에게 제공하는 것이 바람직하다.
본 발명의 일 실시예에 따르면, 유저에 의하여 제공된 텍스트 엔트리는 고립된 또는 단일의 워드 증분이어야 한다. 따라서, 텍스트 엔트리의 발성(136)은 상기 단일 또는 고립된 텍스트 엔트리 워드에 대응한다. 싱글 탭 방법이 이용되어 제1 문자 입력(130)을 입력시키는 경우에 제1 문자 입력을 선택하고 단일 텍스트 엔트리 워드를 말하거나 발성함으로써 텍스트를 입력하는 프로세스는 다소 자연스러운 것이다. 또한, 단일 워드 텍스트 엔트리는 모바일 컴퓨팅 장치 컨텍스트에 그 장점을 갖는다. 특히, 캡쳐된 발성(136)을 일시 저장하는데 더 적은 메모리가 요구된다. 또한, 후술되는 바와 같이, 발성(136)을 분석하는데 더 적은 계산 전력이 요구되며 더욱 정확한 스피치 인식 결과들이 가능하다.
본 발명의 또 다른 실시예에 따르면, 텍스트 엔트리는 멀티플 워드의 형태로 유저에 의하여 제공된다. 일반적으로 모바일 컴퓨팅 장치의 프로세싱 파워 및 제한된 메모리 용량으로 인하여, 텍스트 엔트리의 길이가 제한되는 것이 바람직하다. 따라서, 유저는 짧은 어구 또는 문장만을 입력하도록 허용되는 것이 바람직하다. 본 발명의 일 실시예에 따르면, 캡쳐링 단계로의 개시 및 종료를 유저에게 알리는 표시자는 타이머(즉, 카운트다운 타이머) 또는 시간의 경과 및 캡쳐링 단계 134의 종료를 가리키도록 확장하는 바(bar)의 디스플레이의 형태일 수 있다. 본 발명의 단일 워드 및 멀티플 워드 텍스트 엔트리 실시예들은 모두 텍스트 엔트리의 제1 워드 및 발성의 대응하는 제1 워드에 대하여 실질적으로 동일한 방식으로 초기에 동작한다.
상기 방법의 단계 138에서, 발성(136)의 분석 및 제1 문자 입력(130)에 기초하여 텍스트 엔트리의 발성(136)의 제1 워드에 대한 가능한 워드 후보(140)가 식별된다. 일반적으로, 상기 방법은 제1 문자 입력(130)에 의하여 설명된 기준에 부합하는데 실패한 워드의 제거를 통하여 텍스트 엔트리 워드(단일 또는 고립된 텍스트 엔트리 모드) 또는 텍스트 엔트리의 제1 워드(멀티플 워드 텍스트 엔트리 모드)에 대한 잠재적 워드 후보의 리스트를 협소화시키도록 동작한다. 예를 들면, 싱글 탭 제1 문자 입력(130)이 복수의 문자 "ABC"에 대응하는 경우, 예를 들어, 잠재적 워드 후보의 리스트는 "A", "B", 또는 "C"로 시작하는 워드들만으로 줄여질 수 있다. 결과적으로, 장치(100)의 시스템(128)은 발성(136)에 대한 모든 잠재적 워드 후보들이 분석된다면 가능할 것보다 더욱 정확한 결과들을 만들뿐만 아니라, 더욱 신속하게 결과들을 만들 수 있다. 이것은 스피치 인식 시스템을 실시하는 다른 컴퓨팅 시스템에 의하여 이용되는 프로세싱 전력이 부족한 모바일 컴퓨팅 장치(100)에 대하여 특히 유용하다.
발성(136)의 분석은 일반적으로 스피치 인식기(142)(도 4)에 의하여 수행된다. 스피치 인식기(142)는 일반적으로 텍스트 엔트리의 발성(136)에 대응할 가능성이 가장 높은 발성된 워드 후보들(146)의 렉시콘 또는 리스트로부터 가능한 워드 후보들(144)의 리스트를 식별하도록 발성(136)의 디지털 샘플들에 대하여 스펙트럼 분석을 수행한다. 바람직하게는 스피치 인식기(142)에 의하여 만들어진 가능한 워드 후보(144)의 리스트는 발성(136)에 부합하는 그들의 가능성에 따라 랭크된다.
스피치 인식기(142)는 스피치 인식기(142)의 정확도를 향상시킬 수 있는 언어 모델(148)을 포함할 수도 있다. 언어 모델(148)은 어휘 내에서 워드의 어느 시퀀스가 가능한지를 지정하도록 동작하거나, 또는 일반적으로는, 다양한 워드 시퀀스들의 가능성에 대한 정보를 제공한다. 언어 모델의 예는 1-그램, 2-그램, 및 N-그램 언어 모델이다. 1-그램 언어 모델은 개별적인 워드 가능성만을 고려하는데 반해, 2-그램 언어 모델은 텍스트 엔트리내의 이전의 워드를 텍스트 엔트리의 현재의 발성된 워드가 무엇인지에 대하여 영향을 미치는 것으로 간주한다. 유사하게, 3-그램, 4-그램 및 N-그램 언어 모델은 발성(136)과의 부합을 결정하는 경우에 원하는 텍스트 엔트리에 선행하는 직전의 2, 3 또는 N-1 워드를 고려한다. 모바일 컴퓨터화된 장치(100)내의 프로세싱 전력의 일반적인 부족으로 인하여, 언어 모델(148)을 1- 또는 2-그램 언어 모델로 제한시킬 필요가 있을 수 있다.
식별단계 138은 일반적으로 예측기 모듈(150)에 의하여 수행된다. 본 발명 의 일 실시예에 따르면, 예측기 모듈(150)은 문자 입력(130) 및 가능한 워드 후보들의 리스트(144)를 수신한다. 예측기 모듈(148)은 제1 문자 입력(130)에 기초하여 가능한 워드 후보의 리스트(144)로부터 가능한 워드 후보(140)를 식별한다. 예측기(150)는 그 제1 문자로서 문자 입력(130)을 갖는 가능한 워드 후보의 리스트(144)내에서 가장 높게 랭크된 워드를 가능한 워드 후보(140)로서 선택하는 것이 바람직하다.
본 발명의 또 다른 실시예에 따르면, 도 4의 점선(152)에 의하여 표시된 바와 같이, 식별단계 138은 먼저 제1 문자 입력(130)을 이용하여 스피치 인식기(142)의 발성된 워드 후보(146)의 렉시콘 또는 리스트를 협소화시킴으로써 수행된다. 결과적으로, 발성된 워드 후보(146)의 리스트는 제1 문자 입력(130)에 의하여 식별된 문자 또는 문자들로 시작하는데 실패하는 발성된 워드 후보들 모두를 제거함으로써 발성된 워드 후보들(154)의 협소화된 리스트로 감축된다. 발성된 워드 후보들(154)의 협소화된 리스트는 스피치 인식기(142)에 의한 분석에 기초하여 발성(136)의 제1 워드에 대하여 가능한 워드 후보들(144)의 리스트를 형성하도록 더 협소화된다. 결과적으로, 예측기(150)로 제공되는 가능한 워드 후보들의 리스트(144)는 각각 문자 입력(130)에 의하여 식별된 문자 또는 문자들로 시작한다. 그 후, 예측기(150)는 가능한 워드 후보들의 리스트(144)내에서 가장 높게 랭크된 후보인 것이 바람직한 가능한 워드 후보(140)를 식별한다.
식별단계 138의 또 다른 실시예는 제1 문자 입력(130)에 대하여 싱글 탭 분석을 수행하는 단계를 포함한다. 일반적으로, 예측기(150)는 제1 문자 입력(130) 을 이용하여 입력 워드 후보들의 렉시콘 또는 리스트(156)를 제1 문자 입력(130)에 대응하는 제1 문자들을 갖는 단어들로 협소화시킨다. 이 방식으로, 입력 워드 후보들의 리스트(156)는 발성(136)의 제1 워드에 대한 입력 워드 후보들의 협소화된 리스트(158)로 감축된다. 그 후, 예측기(150)는 스피치 인식기(142)에 의하여 발성(136)의 분석에 응답하여 만들어지는 발성된 워드 후보들의 리스트를 입력 워드 후보들의 협소화된 리스트(158)와 비교한다. 그 후, 예측기(150)는 가능한 워드 후보(140)를 발성된 워드 후보들의 리스트와 입력 워드 후보들의 협소화된 리스트 모두에 위치되는 워드 후보로서 인식한다. 바람직하게는, 예측기(150)는 입력 워드 후보들의 협소화된 리스트(158)내에 하나의 매치를 갖는 가능한 워드 후보들의 리스트(144)내에서 가장 높은 랭크를 갖는 워드로서 가능한 워드 후보(140)를 선택한다.
상기 방법의 최종 단계 160에서, 가능한 워드 후보(140)는 예를 들면, 장치(100)의 디스플레이(106)상에서 유저에게 디스플레이된다. 대안적으로, 식별단계 138을 만족하는 복수의 가능한 워드 후보들이 유저에게 디스플레이될 수 있다. 가능한 워드의 디스플레이는 아직 유저에게 승인되지는 않았지만 가능한 워드 후보의 장치(100)내로의 엔트리로서 해석될 수 있다.
그 후, 디스플레이된 가능한 워드(140)는 유저에 의하여 승인되어 워드의 텍스트 엔트리를 완료하거나 거절될 수 있다. 일반적으로, 가능한 워드 후보(140)는 유저에 의한 선택에 응답하여 장치(100)내로의 텍스트 엔트리로서 승인 및 입력된다. 본 발명의 일 실시예에 따르면, 유저는 장치(100)상의 하드 또는 소프트 키를 누름으로써 디스플레이된 가능한 워드 후보(140)를 입력한다. 본 발명의 일 실시예에 따르면, 유저에 의한 선택은 별표키(122J) 또는 파운드 심볼키(122L)와 같은 영숫자 문자들에 대응하지 않는 숫자 키패드의 키들(122)중 하나를 누름으로써 수행되는 것이 바람직하다. 그러나, 선택을 위한 많은 종래의 방법들이 이용되어 디스플레이된 가능한 워드 후보를 입력할 수 있음이 이해되어야 한다.
유저가 한번에 한 워드씩 텍스트를 입력하고 디스플레이된 가능한 워드가 유저에 의하여 승인되고 입력되는 경우, 상기 방법은 도 5의 흐름도에 따라 계속될 수 있다. 단계 162에서, 유저는 제2 텍스트 엔트리의 제1 문자를 나타내는 제2 문자 입력을 제공한다. 제1 문자 입력(130)을 제공하기 위하여 전술된 절차들에 따라 제2 문자 입력이 제공될 수 있다. 다음, 단계 164에서, 제2 텍스트 엔트리의 발성은 단계 134(도 3)에 관하여 전술된 방식으로 캡쳐된다. 그 후, 제2 텍스트 엔트리의 발성의 분석 및 제2 문자 입력에 기초하여, 단계 166에서, 제2 텍스트 엔트리의 발성에 대하여 가능한 워드 후보가 식별된다. 이 단계는 실질적으로 도 3의 방법의 단계 138에 관하여 전술된 방식으로 수행된다. 최종적으로, 제2 텍스트 엔트리의 발성에 대한 가능한 워드 후보는 단계 168에서 디스플레이된다. 그 후, 유저는 전술된 바와 같이 디스플레이된 가능한 워드 후보를 선택 또는 거절하는 옵션을 가진다.
스피치 인식기(150)의 언어 모델(146)은 텍스트 엔트리내의 이전의 워드를 고려하여 유저가 입력하려고 시도중인 현재의 워드를 식별할 수 있다. 따라서, 제2 텍스트 엔트리의 발성에 대하여 가능한 워드 후보를 식별하는 단계 166은 이전에 입력된 가능한 워드 후보(140)에 더 기초될 수 있다.
유저가 멀티플 워드 포맷으로 텍스트를 입력하고, 디스플레이된 가능한 워드는 유저에 의하여 승인되며, 발성(136)의 워드는 모두 식별된 것은 아닌 경우, 상기 방법은 도 6의 흐름도에 따라 계속할 수 있다. 상기 방법의 단계 170에서, 도 3의 방법의 단계 134에서 캡쳐된 발성(136)의 제2 워드의 제1 문자를 나타내는 제2 문자 입력이 제공된다. 전술된 바와 같이, 제2 문자 입력은 제1 문자 입력(130)을 제공하기 위하여 전술된 절차에 따라 제공될 수 있다. 다음, 단계 172에서, 발성(136)의 제2 워드의 가능한 워드 후보는 제2 문자 입력 및 발성(136)의 분석에 기초하여 식별된다. 가능한 워드 후보는 그 후 유저가 승인하거나 거절하도록 단계 174에서 디스플레이된다. 유저가 이 가능한 워드 후보를 승인하면, 상기 방법은 단계 170으로 복귀하고 발성(136)의 워드가 식별될 때까지 반복한다. 전술된 바와 같이, 발성의 제2 워드에 대하여 가능한 워드 후보를 식별하는 단계 172는 스피치 인식기(150)의 적절한 언어 모델(146)을 이용하여 이전에 입력된 가능한 워드 후보(140)에 더 기초될 수 있다.
전술된 바와 같이, 유저는 적절한 입력을 제공함으로써 상기 디스플레이된 가능한 워드 후보(140)를 거절하는 기회를 갖는다. 본 발명의 일 실시예에 따라, 누르면, 상기 디스플레이된 가능한 워드 후보(140)의 거절을 야기시키는 하나의 키가 장치(100)에 의하여 제공된다. 그러한 키는 장치(100)의 소프트키 또는 하드키일 수 있다. 예를 들어, 별표키(122J)가 이용되어 디스플레이된 가능한 워드 후보(140)를 승인하는 경우, 파운드 심볼키(122L)가 이용되어 상기 디스플레이된 가능 한 워드 후보를 거절할 수 있다. 상기 디스플레이된 가능한 워드 후보를 거절하는 많은 다른 방법들도 이용될 수 있다.
본 발명의 일 실시예에 따라, 유저에 의한 가능한 워드 후보의 거절후, 상기 식별단계 138(도 3)의 기준에 부합하는 하나 이상의 대안적인 가능한 워드 후보들은 그들의 랭크에 따라 유저에게 디스플레이된다. 예를 들어, 입력되기 바라는 워드가 "BURY"인 경우, 시스템(128)에 의하여 디스플레이된 가능한 워드(140)는 "BERRY"일 수 있다. 상기 디스플레이된 가능한 워드를 유저가 거절한 후, 시스템(128)은 예를 들면 원하는 워드 "BURY" 및 "BARRY"와 같은 가장 가능성 있는 대안을 디스플레이할 수 있다. 그 후, 유저에게는 디스플레이된 대안의 가능한 워드 후보들 사이에서 선택하는 옵션이 제공된다.
본 발명의 또 다른 실시예에 따르면, 상기 디스플레이된 가능한 워드 후보(140)의 거절은 원하는 텍스트 엔트리의 발성(136)의 제1 워드의 제2 문자를 나타내는 제2 문자 입력을 유저가 제공하는 것에 응답하여 발생한다. 제2 문자 입력의 엔트리는 제1 문자 입력(130)에 대하여 전술된 방식으로 이루어질 수 있다. 장치(100)의 시스템(128)은 단계 138(도 3)에서 실시된 방법을 만족시키고 상기 제1 및 제2 문자 입력에 대응하는 제1 및 제2 문자들을 가지는 하나 이상의 대안적인 가능한 워드 후보들의 위치를 나타낸다. 대안적인 가능한 워드 후보들은 그 후 선택 또는 거절을 위하여 유저에게 디스플레이될 수 있다. 이 프로세스는 텍스트 엔트리의 제3 및 후속하는 문자들을 입력하는 것을 계속함으로써 반복할 수 있다.
상기 디스플레이된 대안의 가능한 워드들이 유저가 원하는 텍스트 엔트리 워 드에 여전히 부합되지 못하는 경우, 장치(100)에 대한 텍스트 엔트리의 모드는 멀티플 탭 모드로 전화되어 유저가 원하는 워드를 직접 장치(100)내로 입력하도록 허용할 수 있다.
본 발명은 특정한 실시예들을 참조하여 설명되었지만, 당업자들은 본 발명의 취지 및 범위를 벗어나지 않고 형식 및 세부사항에서 변화가 이루어질 수 있음을 인식할 것이다. 또한, 여기에서의 논의의 대부분은 영어와 같은 알파벳 언어에 집중되지만, 당업자는 본 발명내의 원리들은 입력 방법이 알파벳에 기초되지 않는 동아시아의 경우와 같은 다른 언어에도 적용이 가능함을 인식할 것이다.
본 발명에 따르면, 텍스트 엔트리의 제1 문자를 나타내는 제1 문자 입력이 제공되고 텍스트 엔트리의 발성이 캡쳐된 후, 제1 문자 입력 및 발성의 분석에 기초하여 발성의 제1 워드에 대하여 가능한 워드 후보가 식별되어, 가능한 워드 후보가 유저에 대하여 디스플레이된다.

Claims (40)

  1. 장치 내로 텍스트를 입력하는 방법으로서,
    a) 텍스트 엔트리 워드의 제1 문자를 나타내는 제1 문자 입력을 제공하며, 상기 텍스트 엔트리 워드의 제2 문자를 나타내는 제2 문자 입력을 제공하는 단계;
    b) 상기 텍스트 엔트리 워드의 발성을 캡쳐하는 단계;
    c) 상기 제1 문자 입력과 상기 제2 문자 입력 및 상기 발성의 분석에 기초하여 상기 발성에 대한 가능한 워드 후보를 식별하는 단계; 및
    d) 상기 가능한 워드 후보를 디스플레이하는 단계를 포함하는 방법.
  2. 제1항에 있어서,
    상기 제공하는 단계 a)는 복수의 문자들에 대응하는 키를 누르는 단계를 포함하는 방법.
  3. 제1항에 있어서,
    상기 제공하는 단계 a)는 키를 누르고 유지하는 단계를 포함하며,
    상기 캡쳐하는 단계 b)는 상기 제공하는 단계 a)에 응답하여 개시되는 방법.
  4. 제1항에 있어서,
    상기 식별하는 단계 c)는,
    상기 발성의 분석에 기초하여 가능한 워드 후보들의 리스트를 생성하는 단계; 및
    상기 제1 문자 입력에 기초하여 상기 발성에 대한 상기 가능한 워드 후보들의 리스트로부터 상기 가능한 워드 후보를 식별하는 단계를 포함하는 방법.
  5. 제4항에 있어서,
    사용자에 의한 입력에 응답하여 상기 가능한 워드 후보를 거절하는 단계; 및
    상기 가능한 워드 후보들의 리스트로부터 대안적인 가능한 워드 후보를 디스플레이하는 단계를 포함하는 방법.
  6. 제1항에 있어서,
    상기 식별하는 단계 c)는,
    발성된 워드 후보들의 협소화된 리스트를 형성하도록 상기 제1 문자 입력을 이용하여 발성된 워드 후보들의 리스트를 협소화시키는 단계;
    상기 발성의 분석에 기초하여 상기 발성된 워드 후보들의 협소화된 리스트를 상기 발성에 대한 가능한 워드 후보들의 리스트로 협소화시키는 단계; 및
    상기 가능한 워드 후보들의 리스트로부터 상기 가능한 워드 후보를 식별하는 단계를 포함하는 방법.
  7. 제1항에 있어서,
    상기 식별하는 단계 c)는,
    발성된 워드 후보들의 리스트를 생성하도록 상기 발성을 분석하는 단계;
    상기 발성에 대한 입력 워드 후보들의 협소화된 리스트를 형성하도록 상기 제1 문자 입력을 이용하여 입력 워드 후보들의 리스트를 협소화시키는 단계;
    상기 발성된 워드 후보들의 리스트를 상기 입력 워드 후보들의 협소화된 리스트와 비교하는 단계; 및
    상기 가능한 워드 후보를, 상기 발성된 워드 후보들의 리스트 및 상기 입력 워드 후보들의 협소화된 리스트 모두에 위치되는 워드 후보로서 식별하는 단계를 포함하는 방법.
  8. 삭제
  9. 제1항에 있어서,
    상기 장치에 상기 가능한 워드 후보를 입력하는 단계를 포함하는 방법.
  10. 제9항에 있어서,
    제2 텍스트 엔트리 워드의 제1 문자를 나타내는 제3 문자 입력을 제공하는 단계;
    상기 제2 텍스트 엔트리 워드의 발성을 캡쳐하는 단계;
    상기 제3 문자 입력 및 상기 제2 텍스트 엔트리 워드의 상기 발성의 분석에 기초하여 상기 제2 텍스트 엔트리 워드의 상기 발성에 대한 가능한 워드 후보를 식별하는 단계; 및
    상기 제2 텍스트 엔트리 워드의 상기 발성에 대한 상기 가능한 워드 후보를 디스플레이하는 단계를 포함하는 방법.
  11. 제10항에 있어서,
    상기 제2 텍스트 엔트리 워드의 상기 발성에 대한 가능한 워드 후보를 식별하는 단계는 또한 상기 입력된 가능한 워드 후보에 기초하는 방법.
  12. 제1항에 있어서,
    텍스트 엔트리 워드의 제1 문자를 나타내는 제1 문자 입력을 제공하는 것은 상기 텍스트 엔트리 워드의 상기 제1 문자에 대응하는 모바일 컴퓨팅 장치의 키패드의 키를 누르는 것을 포함하는 방법.
  13. 장치 내로 텍스트를 입력하는 방법으로서,
    a) 텍스트 엔트리의 제1 문자를 나타내는 제1 문자 입력을 제공하며, 상기 텍스트 엔트리의 제2 문자를 나타내는 제2 문자 입력을 제공하는 단계;
    b) 상기 텍스트 엔트리의 발성을 캡쳐하는 단계;
    c) 상기 제1 문자 입력과 상기 제2 문자 입력 및 상기 발성의 분석에 기초하여 상기 발성의 제1 워드에 대한 가능한 워드 후보를 식별하는 단계; 및
    d) 상기 가능한 워드 후보를 디스플레이하는 단계를 포함하는 방법.
  14. 제13항에 있어서,
    상기 제공하는 단계 a)는 복수의 문자들에 대응하는 키를 누르는 단계를 포함하는 방법.
  15. 제13항에 있어서,
    상기 식별하는 단계 c)는,
    상기 발성의 분석에 기초하여 가능한 워드 후보들의 리스트를 생성하는 단계; 및
    상기 제1 문자 입력에 기초하여 상기 발성의 상기 제1 워드에 대한 상기 가능한 워드 후보들의 리스트로부터 상기 가능한 워드 후보를 식별하는 단계를 포함하는 방법.
  16. 삭제
  17. 제13항에 있어서,
    상기 장치에 상기 가능한 워드 후보를 입력하는 단계를 포함하는 방법.
  18. 제17항에 있어서,
    상기 발성의 제2 워드의 제1 문자를 나타내는 제3 문자 입력을 제공하는 단계;
    상기 제3 문자 입력 및 상기 발성의 분석에 기초하여 상기 발성의 상기 제2 워드에 대한 가능한 워드 후보를 식별하는 단계; 및
    상기 발성의 상기 제2 워드에 대한 상기 가능한 워드 후보를 디스플레이하는 단계를 포함하는 방법.
  19. 제18항에 있어서,
    상기 발성의 상기 제2 워드에 대한 가능한 워드 후보를 식별하는 단계는 또한 상기 입력된 가능한 워드 후보에 기초하는 방법.
  20. 제13항에 있어서,
    텍스트 엔트리의 제1 문자를 나타내는 제1 문자 입력을 제공하는 것은 상기 텍스트 엔트리의 상기 제1 문자에 대응하는 모바일 컴퓨팅 장치의 키패드의 키를 누르는 것을 포함하는 방법.
  21. 모바일 컴퓨팅 장치의 사용자에 의해 상기 모바일 컴퓨팅 장치로 텍스트를 입력하는 방법에 있어서,
    텍스트 엔트리 워드의 제1 문자에 대응하는 상기 모바일 컴퓨팅 장치의 키패드의 키를 누르는 것을 포함하는, 상기 제1 문자를 나타내는 제1 문자 입력을 제공하며, 상기 텍스트 엔트리 워드의 제2 문자에 대응하는 상기 모바일 컴퓨팅 장치의 키패드의 키를 누르는 것을 포함하는, 상기 제2 문자를 나타내는 제2 문자 입력을 제공하는 단계;
    상기 모바일 컴퓨팅 장치의 마이크로폰으로 상기 텍스트 엔트리 워드를 발성하는 단계;
    상기 텍스트 엔트리 워드의 상기 발성을 캡쳐하는 단계;
    상기 제1 문자 입력과 상기 제2 문자 입력 및 상기 텍스트 엔트리 워드의 캡쳐된 발성의 분석에 기초하여 상기 텍스트 엔트리 워드의 상기 캡쳐된 발성에 대한 가능한 워드 후보를 식별하는 단계; 및
    상기 모바일 컴퓨팅 장치 상에 상기 가능한 워드 후보를 디스플레이하는 단계를 포함하는 방법.
  22. 제21항에 있어서,
    상기 텍스트 엔트리 워드의 상기 캡쳐된 발성에 대한 가능한 워드 후보를 식별하는 단계는,
    상기 텍스트 엔트리 워드의 상기 캡쳐된 발성의 분석에 기초하여 가능한 워드 후보들의 리스트를 생성하는 단계; 및
    상기 제1 문자 입력에 기초하여 상기 텍스트 엔트리 워드의 상기 캡쳐된 발성에 대한 상기 가능한 워드 후보들의 리스트로부터 상기 가능한 워드 후보를 식별하는 단계를 포함하는 방법.
  23. 제21항에 있어서,
    상기 텍스트 엔트리 워드의 상기 캡쳐된 발성에 대한 가능한 워드 후보를 식별하는 단계는,
    발성된 워드 후보들의 협소화된 리스트를 형성하도록 상기 제1 문자 입력을 사용하여 발성된 워드 후보들의 리스트를 협소화시키는 단계;
    상기 텍스트 엔트리 워드의 상기 캡쳐된 발성의 분석에 기초하여 상기 발성된 워드 후보들의 협소화된 리스트를 상기 텍스트 엔트리 워드의 상기 캡쳐된 발성에 대한 가능한 워드 후보들의 리스트로 협소화시키는 단계; 및
    상기 가능한 워드 후보들의 리스트로부터 상기 가능한 워드 후보를 식별하는 단계를 포함하는 방법.
  24. 제21항에 있어서,
    상기 가능한 워드 후보를 상기 모바일 컴퓨팅 장치로 입력하는 단계를 더 포함하는 방법.
  25. 제24항에 있어서,
    제2 텍스트 엔트리 워드의 제1 문자에 대응하는 상기 모바일 컴퓨팅 장치의 키패드의 키를 누르는 것을 포함하는, 상기 제2 텍스트 엔트리 워드의 상기 제1 문자를 나타내는 제3 문자 입력을 제공하는 단계;
    상기 제2 텍스트 엔트리 워드의 발성을 캡쳐하는 단계;
    상기 제3 문자 입력, 상기 제2 텍스트 엔트리 워드의 캡쳐된 발성의 분석 및 상기 입력된 가능한 워드 후보에 기초하여 상기 제2 텍스트 엔트리 워드의 상기 캡쳐된 발성에 대한 가능한 워드 후보를 식별하는 단계; 및
    상기 모바일 컴퓨팅 장치 상에 상기 제2 텍스트 엔트리 워드의 상기 발성에 대한 상기 가능한 워드 후보를 디스플레이하는 단계를 더 포함하는 방법.
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
KR1020040091318A 2003-12-30 2004-11-10 텍스트 입력 방법 KR101109265B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/748,404 2003-12-30
US10/748,404 US7363224B2 (en) 2003-12-30 2003-12-30 Method for entering text

Publications (2)

Publication Number Publication Date
KR20050071334A KR20050071334A (ko) 2005-07-07
KR101109265B1 true KR101109265B1 (ko) 2012-01-30

Family

ID=34574762

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040091318A KR101109265B1 (ko) 2003-12-30 2004-11-10 텍스트 입력 방법

Country Status (10)

Country Link
US (1) US7363224B2 (ko)
EP (1) EP1550939A3 (ko)
JP (1) JP2005196140A (ko)
KR (1) KR101109265B1 (ko)
CN (1) CN1637702A (ko)
AU (1) AU2004231171A1 (ko)
BR (1) BRPI0405164A (ko)
CA (1) CA2487614A1 (ko)
MX (1) MXPA04011787A (ko)
RU (1) RU2377664C2 (ko)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4012143B2 (ja) * 2003-12-16 2007-11-21 キヤノン株式会社 情報処理装置およびデータ入力方法
WO2005088607A1 (de) * 2004-03-12 2005-09-22 Siemens Aktiengesellschaft Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
US7873149B2 (en) 2004-06-01 2011-01-18 Verizon Business Global Llc Systems and methods for gathering information
US8392193B2 (en) * 2004-06-01 2013-03-05 Verizon Business Global Llc Systems and methods for performing speech recognition using constraint based processing
JP2006011641A (ja) * 2004-06-23 2006-01-12 Fujitsu Ltd 情報入力方法及びその装置
JP4027357B2 (ja) * 2004-10-08 2007-12-26 キヤノン株式会社 文字列入力装置およびその制御方法
US8434116B2 (en) 2004-12-01 2013-04-30 At&T Intellectual Property I, L.P. Device, system, and method for managing television tuners
US7436346B2 (en) * 2005-01-20 2008-10-14 At&T Intellectual Property I, L.P. System, method and interface for controlling multiple electronic devices of a home entertainment system via a single control device
JP4702936B2 (ja) * 2005-06-28 2011-06-15 キヤノン株式会社 情報処理装置及び制御方法、プログラム
US20060293890A1 (en) * 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US8924212B1 (en) 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US20070076862A1 (en) * 2005-09-30 2007-04-05 Chatterjee Manjirnath A System and method for abbreviated text messaging
JP4878471B2 (ja) * 2005-11-02 2012-02-15 キヤノン株式会社 情報処理装置およびその制御方法
US20070100619A1 (en) * 2005-11-02 2007-05-03 Nokia Corporation Key usage and text marking in the context of a combined predictive text and speech recognition system
US20080141125A1 (en) * 2006-06-23 2008-06-12 Firooz Ghassabian Combined data entry systems
KR20090019198A (ko) * 2007-08-20 2009-02-25 삼성전자주식회사 음성 인식을 이용한 텍스트 입력 자동 완성 방법 및 장치
KR101502003B1 (ko) * 2008-07-08 2015-03-12 엘지전자 주식회사 이동 단말기 및 그 텍스트 입력 방법
JP5318030B2 (ja) * 2010-05-19 2013-10-16 ヤフー株式会社 入力支援装置、抽出方法、プログラム、及び情報処理装置
US9037459B2 (en) * 2011-03-14 2015-05-19 Apple Inc. Selection of text prediction results by an accessory
US9636582B2 (en) 2011-04-18 2017-05-02 Microsoft Technology Licensing, Llc Text entry by training touch models
JP6066354B2 (ja) * 2011-07-01 2017-01-25 日本電気株式会社 信頼度計算の方法及び装置
US9105073B2 (en) * 2012-04-24 2015-08-11 Amadeus S.A.S. Method and system of producing an interactive version of a plan or the like
KR102313353B1 (ko) * 2013-07-29 2021-10-18 삼성전자주식회사 캐릭터 입력 방법 및 디스플레이 장치
JP6165619B2 (ja) 2013-12-13 2017-07-19 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
CN104267922B (zh) * 2014-09-16 2019-05-31 联想(北京)有限公司 一种信息处理方法及电子设备
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10446143B2 (en) * 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11170757B2 (en) * 2016-09-30 2021-11-09 T-Mobile Usa, Inc. Systems and methods for improved call handling
CN106802725B (zh) * 2017-03-09 2018-07-24 重庆字曌教育科技有限公司 汉字构字构件、形成的榫卯结构汉字系统及汉字输入方法
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP7056185B2 (ja) * 2018-01-31 2022-04-19 トヨタ自動車株式会社 情報処理装置および情報処理方法
CN108281142A (zh) * 2018-02-05 2018-07-13 北京唱吧科技股份有限公司 一种歌曲点播方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010024309A (ko) * 1997-09-25 2001-03-26 로버트 하트 감소된 키보드 명확화 시스템
JP2003216181A (ja) * 2001-12-13 2003-07-30 Matsushita Electric Ind Co Ltd 制約に基づく音声認識システム及び方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5031206A (en) * 1987-11-30 1991-07-09 Fon-Ex, Inc. Method and apparatus for identifying words entered on DTMF pushbuttons
US5303299A (en) * 1990-05-15 1994-04-12 Vcs Industries, Inc. Method for continuous recognition of alphanumeric strings spoken over a telephone network
KR950008022B1 (ko) * 1991-06-19 1995-07-24 가부시끼가이샤 히다찌세이사꾸쇼 문자처리방법 및 장치와 문자입력방법 및 장치
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
WO1996010795A1 (en) * 1994-10-03 1996-04-11 Helfgott & Karas, P.C. A database accessing system
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
DE69817844T2 (de) 1997-06-27 2004-05-06 M.H. Segan Ltd. Partnership, Great Barrington Verfahren und vorrichtung zur spracherkennungscomputereingabe
US6223158B1 (en) * 1998-02-04 2001-04-24 At&T Corporation Statistical option generator for alpha-numeric pre-database speech recognition correction
US20020069058A1 (en) 1999-07-06 2002-06-06 Guo Jin Multimodal data input device
WO2002005263A1 (de) 2000-07-07 2002-01-17 Siemens Aktiengesellschaft Verfahren zur spracheingabe und -erkennung
GB2365188B (en) 2000-07-20 2004-10-20 Canon Kk Method for entering characters
US6405172B1 (en) * 2000-09-09 2002-06-11 Mailcode Inc. Voice-enabled directory look-up based on recognized spoken initial characters
US7010490B2 (en) * 2001-01-26 2006-03-07 International Business Machines Corporation Method, system, and apparatus for limiting available selections in a speech recognition system
US7369997B2 (en) * 2001-08-01 2008-05-06 Microsoft Corporation Controlling speech recognition functionality in a computing device
US7174288B2 (en) * 2002-05-08 2007-02-06 Microsoft Corporation Multi-modal entry of ideogrammatic languages
JP4012143B2 (ja) 2003-12-16 2007-11-21 キヤノン株式会社 情報処理装置およびデータ入力方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010024309A (ko) * 1997-09-25 2001-03-26 로버트 하트 감소된 키보드 명확화 시스템
JP2003216181A (ja) * 2001-12-13 2003-07-30 Matsushita Electric Ind Co Ltd 制約に基づく音声認識システム及び方法

Also Published As

Publication number Publication date
RU2377664C2 (ru) 2009-12-27
US7363224B2 (en) 2008-04-22
EP1550939A3 (en) 2007-05-02
AU2004231171A1 (en) 2005-07-14
MXPA04011787A (es) 2007-11-14
CN1637702A (zh) 2005-07-13
EP1550939A2 (en) 2005-07-06
JP2005196140A (ja) 2005-07-21
BRPI0405164A (pt) 2005-09-20
CA2487614A1 (en) 2005-06-30
US20050149328A1 (en) 2005-07-07
KR20050071334A (ko) 2005-07-07
RU2004135023A (ru) 2006-05-10

Similar Documents

Publication Publication Date Title
KR101109265B1 (ko) 텍스트 입력 방법
KR101312849B1 (ko) 이동 장치에 대한 조합된 음성 및 교체 입력 양식을 위한정보 입력 방법, 이동 장치 및 사용자 인터페이스
US9786273B2 (en) Multimodal disambiguation of speech recognition
US8571862B2 (en) Multimodal interface for input of text
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
US7881936B2 (en) Multimodal disambiguation of speech recognition
US7319957B2 (en) Handwriting and voice input with automatic correction
CA2556065C (en) Handwriting and voice input with automatic correction
KR100769029B1 (ko) 다언어의 이름들의 음성 인식을 위한 방법 및 시스템
US20040153975A1 (en) Text entry mechanism for small keypads
US20060293890A1 (en) Speech recognition assisted autocompletion of composite characters
JP2011254553A (ja) 小型キーパッド用日本語入力メカニズム
US20070038456A1 (en) Text inputting device and method employing combination of associated character input method and automatic speech recognition method
JP2005332235A (ja) 日本語入力変換方法および日本語入力変換装置
JP2000010588A (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee